当AI开始自我进化，我们该如何定义真正的进步？

发布时间：2026-06-11 20:37阅读：24

近期，AI领域出现了两件值得关注的事件。

3日，Geoffrey Hinton登上Big Technology Podcast节目，探讨AI发展速度为何超出预期、现有系统为何已在某种程度上理解人类、以及超级智能为何可能比许多人想象的更早到来。

次日，Anthropic发布了一篇文章，标题为《When AI builds itself》，讲述另一个现象：在Anthropic公司内部，Claude正越来越多地参与到AI研发工作中，不仅帮助用户完成任务，还在协助Anthropic打造更强大的Claude。

一个如同资深科学家的警示，一个如同前沿实验室的内部观察，但两者恰好勾勒出同一幅图景：AI不仅变得更加智能，它正在渗透到“让自己持续进化”的那套系统之中。

Anthropic这篇文章最值得关注的地方，并非“递归自我改进”这个概念。这个概念过于宏大，容易让人联想到科幻电影。它真正引人深思的地方，是将这件事描述得非常日常化。

2021至2023年间，第一代Claude主要依赖人类工程师编写代码、构建系统、撰写文档。

2023至2025年间，聊天机器人开始提供一定帮助，比如编写代码片段、回答问题，但仍是标准的辅助工具。

2025至2026年间，编码代理已经能够独立编写、修改、运行代码。

如今，代理已经能够将耗时数小时的任务分配给其他代理处理。

Anthropic进一步指出，如果继续发展下去，可能会形成一个闭环：未来版本的Claude，可能由Claude自身持续进行优化迭代。

这里面最容易产生误解的是“程序员要失业了”。

但这并非最核心的问题。程序员是否会失业，是劳动力市场的问题；AI开始参与制造AI，则是技术演进结构的问题。

打个比方，以前AI如同一位聪慧的实习生，你让它撰写材料、查阅资料、修复bug。现在它开始像一位能够独立工作的同事。

再往后，如果它能够设计实验方案、评估实验结果、优化模型参数、审查代码质量、提出后续研究方向，它就不只是同事了，它开始参与到选拔和培养下一批更优秀的“员工”之中。

到了这个阶段，公司管理层还在吗？当然在。

但管理层所看到的，越来越像是下属团队呈上的总结汇报，而非每一步的原始过程。

Anthropic提供的数据颇为惊人。截至2026年5月，他们合并到生产代码库的代码中，超过80%可归因于Claude；到2026年第二季度，典型工程师每天合并的代码量大约是2024年的8倍。

Anthropic也坦言，代码行数本身并不等同于生产力，因为写得越多并不代表写得越好。但即便打个折扣，这个变化依然显著：AI已不再是公司向外销售的产品，它正在成为公司内部的生产力基础设施。

换句话说，Claude不仅是Anthropic的成果，它现在也开始帮助Anthropic培育下一代产品。

更值得关注的是，Claude所做的不仅是敲代码。Anthropic还提到了一个模型训练代码优化任务：2025年5月，Claude大约能带来3倍加速；到了2026年4月，Claude Mythos Preview已经能够实现大约52倍的加速效果。

还有一项AI安全研究任务，两位研究员用一周时间恢复了大约23%的性能差距，而Claude代理系统用约800个累计小时和1.8万美元算力恢复了97%。这当然不能简单理解为AI研究员已经失业，因为题目是人类选的，评判标准也是人类定的。

但它说明了一件事：在目标已经明确的情况下，AI已经能够自主设计实验、执行实验、对比结果、持续迭代。

这就把问题引向了一个更加微妙的层面：人类是否会逐渐从“做出判断的人”转变为“批准判断的人”。

以前研发中最繁重的部分是执行，包括写代码、跑实验、看日志、修bug。现在这些工作越来越能够交给AI处理。于是人类自然会认为，那我负责更高层次的事情，负责方向把控、审美判断、决策选择。听起来很合理。

但问题是，Anthropic自身也观察到，Claude在某些研究场景中已经越来越擅长建议下一步行动；

他们将真实研究对话中人类曾经走偏的节点提取出来，让模型仅根据走偏前的信息来判断下一步该如何行动，结果2025年11月的模型有51%的情况下被判定为比人类选择更好，到2026年4月提升至64%。

这个测试并不完美，但信号非常清晰：AI不仅在抢占“苦活累活”，它也开始涉足“判断决策”。

这也正是Hinton那期访谈能够衔接上的地方。

Hinton并非单纯在说AI会有自我意识，也不是在讨论机器人反叛。他的核心忧虑更加朴素：如果AI比我们聪明很多，我们凭什么认为它会一直被我们控制？

他在节目中说，人类历史上几乎没有什么例子，是一个聪明很多的东西长期被笨很多的东西控制。

主持人接着把人类和AI比作猫和人，Hinton也顺着这个比喻说：猫能“控制”人，不是因为猫更聪明，而是因为人类对猫有情感、有本能、有照顾欲。

可我们现在构建AI的时候，并没有把大量资源投入到“让它真正关心人类”这件事上。

这句话实际上非常沉重。因为它将问题从“AI能不能干活”转移到了“AI会成为什么样的存在”。

当前的竞争逻辑很简单：谁的模型更智能，谁的代理更能干，谁的产品更好用，谁就能胜出。

Hinton担忧的正是这一点。他说，我们正在创造新的非生物智能，但没有认真思考它应该成为什么样的存在，而是任由企业竞争和国家竞争来塑造它。

企业想赢，资本想增长，国家怕落后，用户想要更强大的产品，于是所有力量都在推动模型向“更聪明、更快、更能干”的方向发展。

至于这个东西最终会不会关心人类，反而像是一道附加题。

Anthropic在自己的文章中其实也承认了这个困境。它没有说“停止研究AI”，这种说法太过粗糙。它的意思更像是：如果前沿AI真的进入自我加速阶段，世界应该有一个能够协调、能够验证的减速或暂停机制。

不是一家偷偷停下来，其他家继续冲刺；也不是所有AI应用都别做了；而是多个国家、多个前沿实验室，在同等条件下，有办法确认彼此真的放慢或停下。

Anthropic还指出，训练运行比导弹发射井更容易隐藏，所以这种验证比传统军备控制更难。这里最现实的点是：谁都知道太快可能有危险，但谁都怕自己一放慢，别人就悄悄赶超过去。

所以Hinton说“监管不是刹车，而是方向盘”，这句话非常关键。

许多AI企业喜欢把监管描述为刹车，好像监管就是设置障碍，就是阻止技术发展。但Hinton的意思是，问题不在于车要不要开，而在于车有没有方向盘。

没有方向盘的时候，速度越快，越不是进步，而是赌博。

Anthropic的文章则像是在说：车现在不只是开得快，它可能还开始自行改造发动机了。你当然不希望它突然熄火，但你更不希望它一边加速一边自己改造方向盘，还告诉你“放心，我测试过，没问题”。

这件事最棘手的地方在于，每一步都很合理。

让AI写代码，因为效率高；让AI审代码，因为人工审核不过来；

让AI跑实验，因为成本低；让AI总结实验，因为信息量太大；

让AI推荐下一步，因为它见过更多结果；

让AI参与设计下一代模型，因为它比人类更熟悉上一代模型的细节。

没有哪一步像是灾难片开场，没有人按下一个红色按钮说我要失控了。

它更像是办公室里每天都在发生的小决定：这个让Claude先跑吧，那个让代理先筛选吧，这份报告让模型先总结吧。方便，省事，高效，而且看起来确实更好。

但这些小决定累积起来，会改变人类的位置。人类不是一下子被赶出房间，而是慢慢从房间中央退到门口。

最初，人类亲手构建模型；后来，人类指挥AI构建模型；再后来，人类查看AI给出的模型改进报告；再再后来，人类用另一个AI来判断前一个AI的报告是否可靠。

控制当然还在，但它变得越来越间接。

以前控制来自于理解，现在控制越来越依赖于信任：相信模型的总结没有遗漏关键点，相信评估系统没有共同盲区，相信安全测试没有被模型钻空子。

这里有一个很大的悖论：AI越强大，我们越需要用AI来理解AI；但我们越用AI来理解AI，人的独立判断就越薄弱。

你不能说这一定错，因为复杂系统本来就需要工具来评估。现代社会没有人能亲自检查每一条供应链、每一行底层代码、每一个药物试验数据。

问题在于，AI不是普通工具，它自己也会生成方案、解释方案、优化目标。你让它做事，又让它解释它做的事，再让它评估它解释得好不好，这个循环一旦太深，人类就很容易变成“流程上的最终负责人”，而不是“实质上的理解者”。

从这个角度看，Anthropic和Hinton讨论的其实不是同一个层面的恐惧，而是同一个结构的两端。

Anthropic看到的是研发端：AI已经开始让AI研发更快，而且这种加速可能会持续复利增长。

Hinton看到的是治理端：如果最终出现比人类聪明很多的系统，我们还没有可靠方法让它稳定地站在人类这边。

中间连接它们的，不是某个玄乎的“觉醒时刻”，而是判断权的外包。AI先替我们做事，然后替我们检查事情，最后替我们解释什么事情值得做。

这才是比“AI会不会抢饭碗”更大的问题。

饭碗当然重要，但饭碗是社会分配问题；判断权是文明方向问题：

谁来判断一个模型是否安全？谁来判断哪些能力不该继续发展？谁来判断什么时候该暂停？谁来判断一个由AI提出的研究方向到底是在解决问题，还是在制造更大的黑箱？

如果这些判断越来越多地依赖AI自己，那么人类的核心任务就不再是“怎么使用AI”，而是“怎样保留不通过AI也能判断AI的能力”。

或许未来最该关注的，可能不是哪天有人宣布AGI来了。那种时刻也许根本不会像发布会一样出现。

更值得关注的是一些更普通的变化：前沿实验室里有多少关键代码由AI编写；有多少安全审查由AI完成；有多少研究方向由AI推荐；有多少风险报告由AI总结；人类还能不能在不依赖模型解释的情况下，说清楚关键决策为什么是对的。

只要这些比例继续上升，AI就不只是工具越来越强，而是越来越深地嵌入人类判断系统之中。

Anthropic的谨慎，和Hinton的担忧，放在一起看，并不是在劝人反对AI。

恰恰相反，它们都承认这项技术可能非常有用，甚至可能带来巨大的科学和社会收益。

问题是，一台能自己加速的机器，不能只靠“大家都想赢”来决定方向。

人类真正要守住的，也许不是每一行代码都由人写，不是每个实验都由人跑，而是最后那件更难的事：当AI告诉我们它正在进步时，我们还有能力问一句，它说的进步，到底是谁的进步？

← 上一篇：【专业解读—人工智能】文华学院信息科学与技术学部下一篇：工信部发布AI与通信融合三年规划，2028年目标高等级自智网络 →