AI下半场靠检验定输赢,“零人公司”压缩打工路
各位极客朋友晚上好!今晚科技圈简直热闹得像“脑洞和落地一起跑、复盘和狂欢同频闪”:有人拿上世纪的老数据喂AI,有人直接预测以后不用上班了,还有人出来给正燃的AI泡沫泼冷水……废话先到这儿,咱们马上开吃硬菜!👇
这次的实验也许是今年最让人改观的一例。由GPT系列核心缔造者Alec Radford带头的项目,做出了名为 Talkie-1930-13B 的模型,规模130亿参数,训练材料只取1931年1月1日之前的英文文本(书籍、报纸、科学期刊等)。然后呢?在现代计算机概念几乎为零的前提下,它只看了示例,就能靠上下文学习,把Python编程任务完成掉,甚至还能改动加密相关函数!
研究进一步指出,这个模型的语言理解与数学表现,和用当下互联网数据训练、同架构的模型旗鼓相当。它直接冲击了“AI智能一定要靠海量现代数据堆出来”的固有想法,于是研究团队开始追问:大模型的泛化能力到底能走到哪一步?常识又究竟从何而来?
💡 辣评:Alec Radford这位大神又一次用行动证明:真正的高手永远把自己当学徒在学。在大家忙着拼算力、卷数据时,他已经开始追问——如果不给AI现代信息“喂垃圾”,所谓智能的支撑到底是什么?这实验简直像在AI界做考古,越想越让人细思极恐:也许智能本质上是一套不依赖时代语料的推理框架。
数学圈也掀起大地震。华裔数学天才陶哲轩提出,AI正在把数学从“证明稀缺”推向“证明过剩”。如今AI(例如GPT-5.4 Pro)能在80分钟内产出困扰学界多年的难题证明,结果让Github上标注“待评估”的初始证明数量,从少量增加到二十多份。但随之而来的关键难题变了:人类未必吃得下这么多证明。
陶哲轩把数学求解拆成生成、验证、消化三段。AI主要把前两步速度拉满,但“消化”这一步仍由人主导,而且明显跟不上,于是出现所谓“阻抗失配”。这也暗示:未来数学家的核心价值,可能不再是谁先证明,而是谁能更会选题、设计流程,并把AI的结果真正理解和吃透。
💡 辣评:过去是学神讲题你听不懂;现在是AI给你推演一堆解法你看不完。这就像发你一本《如来神掌》,你得有内力才用得上。以后做学术的人,不仅比拼智商,也要练好“阅读理解”和“信息筛选品味”。
清华大学沈阳教授团队抛出了几条让打工人直呼“有点离谱”的判断,核心指向很明确:一是AI正从“人机协同”转向 “人机隔离”(走向更自主的进化);二是企业形态可能演化成 “一人/零人公司”;三是未来AI的竞争点不在生成,而在 “检验能力” !
更让人意外的是数据。他们团队的“超级个体”日均Token消耗已突破1亿,团队日耗更是上百亿。AI既能七天七夜不睡觉,自研出登顶榜单的压缩算法,也能在4小时内从零做出游戏Demo。团队据此推测:未来人类的角色可能从执行者转成“意图建筑师”,负责定义方向与目标意义。
💡 辣评:听起来“零人公司”像科幻,但结合当下AI在代码、图纸、文案上飞速内卷,大家能留给自己的“执行空间”确实不多了。以后老板画饼,或许真会让AI去“烙饼”,自己不用下场吃,因为公司里可能只剩老板和AI这两个“超级个体”。
当外界还在为AI狂欢时,一篇冷水文把更残酷的现实摆到了桌上:在真实生产里,高达90%的AI Agent会失败!常见原因是错误的连锁累积,比如10步任务每一步成功率95%,最终成功率会掉到大约60%。同时,资本与市场对技术成熟度的定价预期(“2年定价10年价值”)和当前研究级工具的能力之间存在明显落差,于是泡沫自然滋生。
但文章也强调,这不意味着方向走偏,更多是典型的“时间错位”。就像2010年的深度学习:那一年ImageNet错误率能到26%,过了5年降到低于人类的3.6%。如今的AI Agent在清晰、短流程、容错更高的场景中已能带来价值,但在开放且复杂的任务里,仍需要长期打磨与迭代。
💡 辣评:现在的AI Agent就像新入职的实习生。你让它去跑文件,它可能顺得很;但要它独立扛起“大项目”,分分钟把你公司的节奏打乱。别急着用“泡沫”或“神话”给它盖棺定论,给技术一点可持续落地的耐心,才更像成年人的样子。
知名TypeScript专家Matt Pocock把他的AI编程工作流工具集开源了,项目地址是 `mattpocock/skills`,很快冲上GitHub热榜。它瞄准的是开发者用AI写代码时最常见的四类痛点:需求对不上、表达啰嗦废话多、代码质量不稳、架构还会逐渐腐化。
这套工具包含21个可组合的提示词文件(Skill),例如`/grill-me`用于强制对齐需求,`/tdd`让流程严格贴合测试驱动开发,`/caveman`采用极简沟通来减少大约75%的Token消耗。相比那些“重型”全自动框架,它更强调开发者对流程的掌控,属于更务实的“副驾驶”模式。
💡 辣评:这才是AI编程更靠谱的打开方式!与其追着“一键生成屎山”的幻想,不如把AI当成严格的门卫(/grill-me)、质检员(/tdd)和闭嘴专注的工匠(/caveman)。工具是为人服务的,把控制权交回给开发者,才是真正的正道。
百度智能云和极客公园搞了个大动作。他们将在2026年5月的百度AI开发者大会上推出“AI硬件产品快闪”活动,届时会邀请8支顶尖硬件团队参赛/展示,目标锁定三类创新方向:前沿交互创新、垂直场景重构、软硬协同突围。现场除了5分钟演讲,还有15分钟Live Demo,甚至设置了“想买”“想合作”的实时表态牌,让市场验证更直接。这场活动也被视作2026年AI硬件创新趋势的重要信号。
💡 辣评:软件定义一切这么多年,终于轮到硬件重新站上台面了。当AI被塞进眼镜、耳机,甚至机器人里,拼的就不只是参数,而是谁更懂人的真实需求。也期待这8支团队能带来一些不止“智能音箱二代”的新东西——要不然手机里的应用大家都要看腻了。
对那些想拥有自己“数字花园”的极客来说,一篇实操向文章堪称“省钱防坑指南”。作者拆解了一套个人WordPress网站的搭建思路:通过系统性整合Cloudflare免费套件(CDN/SSL/WAF)、哪吒监控、宝塔面板等服务,把除了域名和VPS之外的开销尽量压到几乎为零。整体方案年运营成本低于30美元,换算成人民币大概两百多,就能获得一个功能完整的动态网站。
当然,作者也直说这套方案并不完美:比如备份与源数据同机,缺少异地容灾能力,存在一定风险。但对预算有限的个人博客、资源站而言,它的性价比确实非常突出。文中还把VPS配置、DNS设置以及WAF安全规则写得很细,几乎是手把手教学。
💡 辣评:这就是技术“抠学”的典型范本。每年花不到一顿火锅钱,就能在全球互联网上拥有一块属于自己的地盘,还顺便把一套运维能力练得明明白白。不过别忘了:便宜往往意味着更多自己要操心的地方,务必定期做备份“狡兔三窟”,别等VPS出问题才追悔莫及。
今天的内容就到这里啦~ 从大佬的复古实验到硬件未来的畅想,从AI泡沫的冷水提醒到实用的避坑方法,你觉得哪一条最戳你?你认为AI下一波浪潮会催生“零人公司”,还是仍需要时间验证的一场闹剧?欢迎在评论区留下你的辣评,我们一起开开脑洞!🚀