AI下半场靠检验定输赢，“零人公司”压缩打工路

发布时间：2026-05-02 10:04阅读：14

各位极客朋友晚上好！今晚科技圈简直热闹得像“脑洞和落地一起跑、复盘和狂欢同频闪”：有人拿上世纪的老数据喂AI，有人直接预测以后不用上班了，还有人出来给正燃的AI泡沫泼冷水……废话先到这儿，咱们马上开吃硬菜！👇

这次的实验也许是今年最让人改观的一例。由GPT系列核心缔造者Alec Radford带头的项目，做出了名为 Talkie-1930-13B 的模型，规模130亿参数，训练材料只取1931年1月1日之前的英文文本（书籍、报纸、科学期刊等）。然后呢？在现代计算机概念几乎为零的前提下，它只看了示例，就能靠上下文学习，把Python编程任务完成掉，甚至还能改动加密相关函数！

研究进一步指出，这个模型的语言理解与数学表现，和用当下互联网数据训练、同架构的模型旗鼓相当。它直接冲击了“AI智能一定要靠海量现代数据堆出来”的固有想法，于是研究团队开始追问：大模型的泛化能力到底能走到哪一步？常识又究竟从何而来？

💡 辣评：Alec Radford这位大神又一次用行动证明：真正的高手永远把自己当学徒在学。在大家忙着拼算力、卷数据时，他已经开始追问——如果不给AI现代信息“喂垃圾”，所谓智能的支撑到底是什么？这实验简直像在AI界做考古，越想越让人细思极恐：也许智能本质上是一套不依赖时代语料的推理框架。

数学圈也掀起大地震。华裔数学天才陶哲轩提出，AI正在把数学从“证明稀缺”推向“证明过剩”。如今AI（例如GPT-5.4 Pro）能在80分钟内产出困扰学界多年的难题证明，结果让Github上标注“待评估”的初始证明数量，从少量增加到二十多份。但随之而来的关键难题变了：人类未必吃得下这么多证明。

陶哲轩把数学求解拆成生成、验证、消化三段。AI主要把前两步速度拉满，但“消化”这一步仍由人主导，而且明显跟不上，于是出现所谓“阻抗失配”。这也暗示：未来数学家的核心价值，可能不再是谁先证明，而是谁能更会选题、设计流程，并把AI的结果真正理解和吃透。

💡 辣评：过去是学神讲题你听不懂；现在是AI给你推演一堆解法你看不完。这就像发你一本《如来神掌》，你得有内力才用得上。以后做学术的人，不仅比拼智商，也要练好“阅读理解”和“信息筛选品味”。

清华大学沈阳教授团队抛出了几条让打工人直呼“有点离谱”的判断，核心指向很明确：一是AI正从“人机协同”转向 “人机隔离”（走向更自主的进化）；二是企业形态可能演化成 “一人/零人公司”；三是未来AI的竞争点不在生成，而在 “检验能力” ！

更让人意外的是数据。他们团队的“超级个体”日均Token消耗已突破1亿，团队日耗更是上百亿。AI既能七天七夜不睡觉，自研出登顶榜单的压缩算法，也能在4小时内从零做出游戏Demo。团队据此推测：未来人类的角色可能从执行者转成“意图建筑师”，负责定义方向与目标意义。

💡 辣评：听起来“零人公司”像科幻，但结合当下AI在代码、图纸、文案上飞速内卷，大家能留给自己的“执行空间”确实不多了。以后老板画饼，或许真会让AI去“烙饼”，自己不用下场吃，因为公司里可能只剩老板和AI这两个“超级个体”。

当外界还在为AI狂欢时，一篇冷水文把更残酷的现实摆到了桌上：在真实生产里，高达90%的AI Agent会失败！常见原因是错误的连锁累积，比如10步任务每一步成功率95%，最终成功率会掉到大约60%。同时，资本与市场对技术成熟度的定价预期（“2年定价10年价值”）和当前研究级工具的能力之间存在明显落差，于是泡沫自然滋生。

但文章也强调，这不意味着方向走偏，更多是典型的“时间错位”。就像2010年的深度学习：那一年ImageNet错误率能到26%，过了5年降到低于人类的3.6%。如今的AI Agent在清晰、短流程、容错更高的场景中已能带来价值，但在开放且复杂的任务里，仍需要长期打磨与迭代。

💡 辣评：现在的AI Agent就像新入职的实习生。你让它去跑文件，它可能顺得很；但要它独立扛起“大项目”，分分钟把你公司的节奏打乱。别急着用“泡沫”或“神话”给它盖棺定论，给技术一点可持续落地的耐心，才更像成年人的样子。

知名TypeScript专家Matt Pocock把他的AI编程工作流工具集开源了，项目地址是 `mattpocock/skills`，很快冲上GitHub热榜。它瞄准的是开发者用AI写代码时最常见的四类痛点：需求对不上、表达啰嗦废话多、代码质量不稳、架构还会逐渐腐化。

这套工具包含21个可组合的提示词文件（Skill），例如`/grill-me`用于强制对齐需求，`/tdd`让流程严格贴合测试驱动开发，`/caveman`采用极简沟通来减少大约75%的Token消耗。相比那些“重型”全自动框架，它更强调开发者对流程的掌控，属于更务实的“副驾驶”模式。

💡 辣评：这才是AI编程更靠谱的打开方式！与其追着“一键生成屎山”的幻想，不如把AI当成严格的门卫（/grill-me）、质检员（/tdd）和闭嘴专注的工匠（/caveman）。工具是为人服务的，把控制权交回给开发者，才是真正的正道。

百度智能云和极客公园搞了个大动作。他们将在2026年5月的百度AI开发者大会上推出“AI硬件产品快闪”活动，届时会邀请8支顶尖硬件团队参赛/展示，目标锁定三类创新方向：前沿交互创新、垂直场景重构、软硬协同突围。现场除了5分钟演讲，还有15分钟Live Demo，甚至设置了“想买”“想合作”的实时表态牌，让市场验证更直接。这场活动也被视作2026年AI硬件创新趋势的重要信号。

💡 辣评：软件定义一切这么多年，终于轮到硬件重新站上台面了。当AI被塞进眼镜、耳机，甚至机器人里，拼的就不只是参数，而是谁更懂人的真实需求。也期待这8支团队能带来一些不止“智能音箱二代”的新东西——要不然手机里的应用大家都要看腻了。

对那些想拥有自己“数字花园”的极客来说，一篇实操向文章堪称“省钱防坑指南”。作者拆解了一套个人WordPress网站的搭建思路：通过系统性整合Cloudflare免费套件（CDN/SSL/WAF）、哪吒监控、宝塔面板等服务，把除了域名和VPS之外的开销尽量压到几乎为零。整体方案年运营成本低于30美元，换算成人民币大概两百多，就能获得一个功能完整的动态网站。

当然，作者也直说这套方案并不完美：比如备份与源数据同机，缺少异地容灾能力，存在一定风险。但对预算有限的个人博客、资源站而言，它的性价比确实非常突出。文中还把VPS配置、DNS设置以及WAF安全规则写得很细，几乎是手把手教学。

💡 辣评：这就是技术“抠学”的典型范本。每年花不到一顿火锅钱，就能在全球互联网上拥有一块属于自己的地盘，还顺便把一套运维能力练得明明白白。不过别忘了：便宜往往意味着更多自己要操心的地方，务必定期做备份“狡兔三窟”，别等VPS出问题才追悔莫及。

今天的内容就到这里啦~ 从大佬的复古实验到硬件未来的畅想，从AI泡沫的冷水提醒到实用的避坑方法，你觉得哪一条最戳你？你认为AI下一波浪潮会催生“零人公司”，还是仍需要时间验证的一场闹剧？欢迎在评论区留下你的辣评，我们一起开开脑洞！🚀

← 上一篇：AI纪元：新时代的真正开端下一篇：AI泡沫：技术革命的宿命 →