当AI开始自我进化,我们该如何定义真正的进步?
近期,AI领域出现了两件值得关注的事件。
3日,Geoffrey Hinton登上Big Technology Podcast节目,探讨AI发展速度为何超出预期、现有系统为何已在某种程度上理解人类、以及超级智能为何可能比许多人想象的更早到来。
次日,Anthropic发布了一篇文章,标题为《When AI builds itself》,讲述另一个现象:在Anthropic公司内部,Claude正越来越多地参与到AI研发工作中,不仅帮助用户完成任务,还在协助Anthropic打造更强大的Claude。
一个如同资深科学家的警示,一个如同前沿实验室的内部观察,但两者恰好勾勒出同一幅图景:AI不仅变得更加智能,它正在渗透到“让自己持续进化”的那套系统之中。
Anthropic这篇文章最值得关注的地方,并非“递归自我改进”这个概念。这个概念过于宏大,容易让人联想到科幻电影。它真正引人深思的地方,是将这件事描述得非常日常化。
2021至2023年间,第一代Claude主要依赖人类工程师编写代码、构建系统、撰写文档。
2023至2025年间,聊天机器人开始提供一定帮助,比如编写代码片段、回答问题,但仍是标准的辅助工具。
2025至2026年间,编码代理已经能够独立编写、修改、运行代码。
如今,代理已经能够将耗时数小时的任务分配给其他代理处理。
Anthropic进一步指出,如果继续发展下去,可能会形成一个闭环:未来版本的Claude,可能由Claude自身持续进行优化迭代。
这里面最容易产生误解的是“程序员要失业了”。
但这并非最核心的问题。程序员是否会失业,是劳动力市场的问题;AI开始参与制造AI,则是技术演进结构的问题。
打个比方,以前AI如同一位聪慧的实习生,你让它撰写材料、查阅资料、修复bug。现在它开始像一位能够独立工作的同事。
再往后,如果它能够设计实验方案、评估实验结果、优化模型参数、审查代码质量、提出后续研究方向,它就不只是同事了,它开始参与到选拔和培养下一批更优秀的“员工”之中。
到了这个阶段,公司管理层还在吗?当然在。
但管理层所看到的,越来越像是下属团队呈上的总结汇报,而非每一步的原始过程。
Anthropic提供的数据颇为惊人。截至2026年5月,他们合并到生产代码库的代码中,超过80%可归因于Claude;到2026年第二季度,典型工程师每天合并的代码量大约是2024年的8倍。
Anthropic也坦言,代码行数本身并不等同于生产力,因为写得越多并不代表写得越好。但即便打个折扣,这个变化依然显著:AI已不再是公司向外销售的产品,它正在成为公司内部的生产力基础设施。
换句话说,Claude不仅是Anthropic的成果,它现在也开始帮助Anthropic培育下一代产品。
更值得关注的是,Claude所做的不仅是敲代码。Anthropic还提到了一个模型训练代码优化任务:2025年5月,Claude大约能带来3倍加速;到了2026年4月,Claude Mythos Preview已经能够实现大约52倍的加速效果。
还有一项AI安全研究任务,两位研究员用一周时间恢复了大约23%的性能差距,而Claude代理系统用约800个累计小时和1.8万美元算力恢复了97%。这当然不能简单理解为AI研究员已经失业,因为题目是人类选的,评判标准也是人类定的。
但它说明了一件事:在目标已经明确的情况下,AI已经能够自主设计实验、执行实验、对比结果、持续迭代。
这就把问题引向了一个更加微妙的层面:人类是否会逐渐从“做出判断的人”转变为“批准判断的人”。
以前研发中最繁重的部分是执行,包括写代码、跑实验、看日志、修bug。现在这些工作越来越能够交给AI处理。于是人类自然会认为,那我负责更高层次的事情,负责方向把控、审美判断、决策选择。听起来很合理。
但问题是,Anthropic自身也观察到,Claude在某些研究场景中已经越来越擅长建议下一步行动;
他们将真实研究对话中人类曾经走偏的节点提取出来,让模型仅根据走偏前的信息来判断下一步该如何行动,结果2025年11月的模型有51%的情况下被判定为比人类选择更好,到2026年4月提升至64%。
这个测试并不完美,但信号非常清晰:AI不仅在抢占“苦活累活”,它也开始涉足“判断决策”。
这也正是Hinton那期访谈能够衔接上的地方。
Hinton并非单纯在说AI会有自我意识,也不是在讨论机器人反叛。他的核心忧虑更加朴素:如果AI比我们聪明很多,我们凭什么认为它会一直被我们控制?
他在节目中说,人类历史上几乎没有什么例子,是一个聪明很多的东西长期被笨很多的东西控制。
主持人接着把人类和AI比作猫和人,Hinton也顺着这个比喻说:猫能“控制”人,不是因为猫更聪明,而是因为人类对猫有情感、有本能、有照顾欲。
可我们现在构建AI的时候,并没有把大量资源投入到“让它真正关心人类”这件事上。
这句话实际上非常沉重。因为它将问题从“AI能不能干活”转移到了“AI会成为什么样的存在”。
当前的竞争逻辑很简单:谁的模型更智能,谁的代理更能干,谁的产品更好用,谁就能胜出。
Hinton担忧的正是这一点。他说,我们正在创造新的非生物智能,但没有认真思考它应该成为什么样的存在,而是任由企业竞争和国家竞争来塑造它。
企业想赢,资本想增长,国家怕落后,用户想要更强大的产品,于是所有力量都在推动模型向“更聪明、更快、更能干”的方向发展。
至于这个东西最终会不会关心人类,反而像是一道附加题。
Anthropic在自己的文章中其实也承认了这个困境。它没有说“停止研究AI”,这种说法太过粗糙。它的意思更像是:如果前沿AI真的进入自我加速阶段,世界应该有一个能够协调、能够验证的减速或暂停机制。
不是一家偷偷停下来,其他家继续冲刺;也不是所有AI应用都别做了;而是多个国家、多个前沿实验室,在同等条件下,有办法确认彼此真的放慢或停下。
Anthropic还指出,训练运行比导弹发射井更容易隐藏,所以这种验证比传统军备控制更难。这里最现实的点是:谁都知道太快可能有危险,但谁都怕自己一放慢,别人就悄悄赶超过去。
所以Hinton说“监管不是刹车,而是方向盘”,这句话非常关键。
许多AI企业喜欢把监管描述为刹车,好像监管就是设置障碍,就是阻止技术发展。但Hinton的意思是,问题不在于车要不要开,而在于车有没有方向盘。
没有方向盘的时候,速度越快,越不是进步,而是赌博。
Anthropic的文章则像是在说:车现在不只是开得快,它可能还开始自行改造发动机了。你当然不希望它突然熄火,但你更不希望它一边加速一边自己改造方向盘,还告诉你“放心,我测试过,没问题”。
这件事最棘手的地方在于,每一步都很合理。
让AI写代码,因为效率高;让AI审代码,因为人工审核不过来;
让AI跑实验,因为成本低;让AI总结实验,因为信息量太大;
让AI推荐下一步,因为它见过更多结果;
让AI参与设计下一代模型,因为它比人类更熟悉上一代模型的细节。
没有哪一步像是灾难片开场,没有人按下一个红色按钮说我要失控了。
它更像是办公室里每天都在发生的小决定:这个让Claude先跑吧,那个让代理先筛选吧,这份报告让模型先总结吧。方便,省事,高效,而且看起来确实更好。
但这些小决定累积起来,会改变人类的位置。人类不是一下子被赶出房间,而是慢慢从房间中央退到门口。
最初,人类亲手构建模型;后来,人类指挥AI构建模型;再后来,人类查看AI给出的模型改进报告;再再后来,人类用另一个AI来判断前一个AI的报告是否可靠。
控制当然还在,但它变得越来越间接。
以前控制来自于理解,现在控制越来越依赖于信任:相信模型的总结没有遗漏关键点,相信评估系统没有共同盲区,相信安全测试没有被模型钻空子。
这里有一个很大的悖论:AI越强大,我们越需要用AI来理解AI;但我们越用AI来理解AI,人的独立判断就越薄弱。
你不能说这一定错,因为复杂系统本来就需要工具来评估。现代社会没有人能亲自检查每一条供应链、每一行底层代码、每一个药物试验数据。
问题在于,AI不是普通工具,它自己也会生成方案、解释方案、优化目标。你让它做事,又让它解释它做的事,再让它评估它解释得好不好,这个循环一旦太深,人类就很容易变成“流程上的最终负责人”,而不是“实质上的理解者”。
从这个角度看,Anthropic和Hinton讨论的其实不是同一个层面的恐惧,而是同一个结构的两端。
Anthropic看到的是研发端:AI已经开始让AI研发更快,而且这种加速可能会持续复利增长。
Hinton看到的是治理端:如果最终出现比人类聪明很多的系统,我们还没有可靠方法让它稳定地站在人类这边。
中间连接它们的,不是某个玄乎的“觉醒时刻”,而是判断权的外包。AI先替我们做事,然后替我们检查事情,最后替我们解释什么事情值得做。
这才是比“AI会不会抢饭碗”更大的问题。
饭碗当然重要,但饭碗是社会分配问题;判断权是文明方向问题:
谁来判断一个模型是否安全?谁来判断哪些能力不该继续发展?谁来判断什么时候该暂停?谁来判断一个由AI提出的研究方向到底是在解决问题,还是在制造更大的黑箱?
如果这些判断越来越多地依赖AI自己,那么人类的核心任务就不再是“怎么使用AI”,而是“怎样保留不通过AI也能判断AI的能力”。
或许未来最该关注的,可能不是哪天有人宣布AGI来了。那种时刻也许根本不会像发布会一样出现。
更值得关注的是一些更普通的变化:前沿实验室里有多少关键代码由AI编写;有多少安全审查由AI完成;有多少研究方向由AI推荐;有多少风险报告由AI总结;人类还能不能在不依赖模型解释的情况下,说清楚关键决策为什么是对的。
只要这些比例继续上升,AI就不只是工具越来越强,而是越来越深地嵌入人类判断系统之中。
Anthropic的谨慎,和Hinton的担忧,放在一起看,并不是在劝人反对AI。
恰恰相反,它们都承认这项技术可能非常有用,甚至可能带来巨大的科学和社会收益。
问题是,一台能自己加速的机器,不能只靠“大家都想赢”来决定方向。
人类真正要守住的,也许不是每一行代码都由人写,不是每个实验都由人跑,而是最后那件更难的事:当AI告诉我们它正在进步时,我们还有能力问一句,它说的进步,到底是谁的进步?