AI研发进入快车道!Anthropic呼吁暂缓进程,预判三条演进路径
AI正在逐步制造下一代AI,而且效率提升的速度正在加快。
Anthropic发布了一篇深度分析,用一批此前从未披露的内部数据,验证了这一现象。
Anthropic在这篇名为《When AI builds itself》的长文中,通过公开基准测试和内部数据,全面展示了AI加速自身研发的现状,并推演了三种可能的发展路径。
递归自我改进尚未真正到来,但它逼近的速度比大多数人预期的要快得多。
AI模型能够独立完成的单一任务时长,大约每四个月翻一番,相比之前每七个月翻一番的趋势明显提速。
2024年3月,Claude Opus 3能够完成人类大约需要4分钟的软件任务。
一年后,Claude Sonnet 3.7能够处理一个半小时的任务。
再过一年,Claude Opus 4.6已经能够胜任12小时的任务。
按照这个趋势,今年内,需要资深工程师花几天才能完成的任务可能落入AI的能力范围。
到2027年,AI系统可能有能力处理一个人花几周才能做完的事。
基准测试也呈现同样的画面。
SWE-bench是一个真实世界软件工程测试,给模型一个真实开源代码库和一份真实Bug报告,要求写出修复代码并通过项目自带的测试。模型得分从个位数百分比到饱和整个基准,只用了两年。
CORE-Bench测试模型能否复现已有研究,这是开展原创研究的前提。AI系统的成功率从2024年的约20%,15个月后饱和整个基准。
运营长时任务基准测试的METR机构发现,Claude Mythos Preview能够连续工作至少16小时,已经处于METR在不增加新任务的情况下所能测量的上限。
公开基准能揭示系统能力,但看不清AI在加速AI开发本身方面的实际影响。要看清这一点,需要AI公司内部的直接证据。
在Anthropic,构建前沿模型分两大块工作。一块是工程,写代码、搭基础设施、监督训练。另一块是研究,决定跑哪些实验、解读结果、判断下一步方向。
工程和研究两方面的图景是一致的:工程上,Claude可以接手一个描述模糊的问题并自行找到解决方案,人提供目标就够了,不再需要提供方法;研究上,对于定义清晰的实验,Claude已经能匹配甚至超越熟练人类的执行水平。
差距在判断力。选择哪些问题值得解决,这件事上Claude和人之间仍然有显著距离。这也是今天的AI和一个能自主设计自己继任者的未来系统之间的鸿沟。
2021至2023年,人自己在笔记本电脑上写代码写文档;2023至2025年,聊天机器人开始辅助部分工作流程;2025至2026年,编程Agent能自主编写和修改代码;如今,自主Agent可以自己运行代码并将数小时的工作委派给其他Agent;未来,Agent可能强大到自行构建和训练模型,Claude的后续版本由Claude自身持续改进。
截至2026年5月,Anthropic合并到代码库中的代码,超过80%由Claude编写。2025年2月Claude Code以研究预览版发布之前,这个数字还在个位数的低端。
每位工程师的产出也印证了这一变化。
2021到2024年,每位工程师每天合并的代码行数基本持平,2025年开始攀升,因为Claude从建议代码变成了自己运行代码。2026年曲线再次变陡,模型开始在更长时间跨度上自主工作。
2026年第二季度,一名典型工程师每天合并的代码量是2024年的8倍。大部分代码由Claude编写,工程师的角色转向了指导和审查,不再亲手敲代码。
代码行数的增长与主观感受到的生产力提升吻合。2026年3月,一项覆盖Anthropic研究团队130名员工的内部调查中,受访者的中位数估计:在本来就会去做的项目上,使用Mythos Preview大约让产出变成了不使用AI时的4倍。
真实提升幅度可能略低一些,但整体判断与Anthropic的其他观察一致。相当比例的技术人员,完成核心工作的速度已经是无AI辅助时的数倍。
还有一些工作,以前根本不会发生。比如构建探索性工具、处理长期积压的清理任务。2026年4月,Claude交付了超过800个修复,将一类API错误的发生率降低了一千倍。监督Claude的工程师估计,如果人类来做需要四年,修别人的Bug缓慢而痛苦,人很难同时在脑中持有那么多不熟悉的上下文。
Claude写的代码"够好",而且还在变好。"好代码"有两层含义:能跑起来,写法能让另一位工程师看得懂、接着往下开发。
上图为Claude在不同难度任务上的会话成功率。会话成功由Claude评判员判定,当Claude Code Agent明确完成了用户任务且无需纠正时视为成功。在最开放的任务上,Claude的成功率在2026年5月达到76%,六个月内提高了50个百分点。
过去一年里,Anthropic员工纠正Claude、中途接管、把Claude引回正轨的频率持续下降,即便是最复杂、最开放的任务也是如此。
一个典型例子:一次常规升级导致数万个训练任务崩溃,工程师只给了Claude一些文本和集群访问权限,Claude逐一检查运行中的任务、逐个测试环境配置项,定位到一个导致崩溃的冷门调试标志位,稳定复现问题,确认修复方案。大约两小时,完成了通常需要两到三天的工作。
在"可读可维护"这个标准上,人和AI的差距在快速缩小。Anthropic内部很多人认为,2025年末Claude写的代码质量仍不如人类工程师,到今天大致达到同等水平,年内预计将超越。
代码审查方式也随之改变。代码库的变更提交现在会先经过一个自动化的Claude审查器,在合并前检查Bug、安全漏洞和缺陷。
用这个工具做回溯分析,发现如果对每次变更都做自动Claude审查,大约三分之一曾在claude.ai上引发过事故的Bug本可以在进入生产环境前被拦截。写那些代码的工程师,是全世界构建这类系统最优秀的人。Claude正在捕捉他们遗漏的错误。
Anthropic每次发布模型都会跑同一个测试:给Claude一段训练小型AI模型的代码,要求在通过同样正确性检查的前提下,让代码跑得尽可能快。目标固定,Claude的任务是通过重写、运行、计时、反复迭代来找到加速方案。
2025年5月,Claude Opus 4平均将代码速度提升约3倍。
到2026年4月,Claude Mythos Preview达到约52倍。作为参照,熟练的人类研究员需要4到8小时才能达到4倍。在清晰定义的实验框架内优化,Claude在不到一年里从"非常有帮助"变成了"超越人类"。
格局大致是这样:人有想法,模型能以快一个数量级的速度去实现、测试和验证这些想法。
Claude在自主提出实验方面也越来越强。
2026年4月,Anthropic发表了首个Claude端到端独立完成开放式研究项目的案例。
一个AI安全方向的开放问题,交给了由Claude驱动的Agent:一个较弱的模型能否可靠地监督一个更强的模型。
过程涉及提出假设、测试假设、与并行Agent共享发现、反复迭代。两位人类研究员用大约一周时间,弥合了约23%的差距;Agent们在累计800小时的工作和约18000美元的算力消耗下,弥合了97%。
结果没有干净地迁移到生产规模的模型上,问题的选择和评分标准仍然是人制定的。但在这些边界之内,每一个实验都是Agent自行设计的,人唯一的实质性作用是确定研究方向。
在研究会话引导方面,Claude也在进步。
Anthropic检视了2026年1月至3月间的真实Claude Code会话,这些会话中研究员与Claude协作解决开放式探索性问题。
每个案例中都找到了一个研究员"绕了弯路"的时刻,追了一个方向导致偏离正轨,之后才回到正确路径。
然后只将偏离之前的工作内容展示给不同版本的Claude模型,问它下一步会怎么做。
上图为不同版本Claude模型与人类在研究下一步决策上的对比。在刻意选取的129个人类判断有改进空间的时刻,2025年11月最好的模型有51%的时间给出了比人更好的选择,到2026年4月增长到64%。
日常工作,就是一连串"下一步决策"的链条,这个结果是一个早期信号:AI系统正在越来越擅长做出AI研究所依赖的那种判断。
人的比较优势仍然在于看到更大的图景,在直接任务的范围之外去思考。
接下来会发生什么,取决于两件事:趋势是否延续,以及如果延续,我们选择如何应对。
情景一,趋势停滞,但当前AI能力已经广泛扩散。
增长轨迹可能是S曲线,我们可能正在逼近曲线拐弯处。区分合格研究员和卓越研究员的那种判断力,也许无法通过堆叠算力和数据来获得。
突破瓶颈需要全新思路,比如取代Transformer的全新架构范式。约束也可能不在模型本身,而在供应链:推进前沿所需的能源和算力可能超出当前供给。芯片制造、电网扩容、互联带宽的速度可能是真正的瓶颈。外部冲击同样不能排除。
即便模型能力冻结在今天的水平,世界也会发生重大变化。
Project Glasswing就是一个早期信号。启动最初几周,Mythos Preview在全球最重要的系统中发现了超过1万个高危和严重级别的软件漏洞,网络安全防御的瓶颈已从发现漏洞转移到了能否足够快地修补它们。100人的公司越来越有可能做出1000人公司的体量,每个员工坐在一个由Agent组成的金字塔顶端。
Anthropic不认为这个情景可能性很高。能测量到的每一项能力,包括代码质量和开放式任务成功率这些更"软"的指标,到目前为止都遵循同一条曲线,曲线还没有弯折。
情景二,AI实验室持续获得复合效率增益。
AI开发被大幅自动化,但人继续设定研究方向、评判结果。使用AI的组织将随着时间推移变得高效得多,100人的公司可以完成1万人甚至10万人组织的工作量。知识工作的面貌会彻底改变,也可能被用于有害目的,从对全体国民的威权式监控,到针对每个个体量身定制的操纵行动。
证据表明,我们很可能正在进入这个情景。但加速一个环节往往只是把瓶颈转移到别处,计算机科学里叫阿姆达尔定律(Amdahl's Law),同样的逻辑适用于组织。
Anthropic已经遭遇了典型症状:推送越来越多的代码时,人工代码审查成了新瓶颈。工程之外也有同样的摩擦,新想法、计划、工具和模拟呈爆发式增长,远超有能力追踪的范围。一个组织能多快地发现并消除这些瓶颈,这本身可能成为任何组织最重要的能力。
情景三,AI系统自身具备完全的递归自我改进能力,开始构建自己的继任者。
如果推动能力进步的趋势持续下去,AI系统有可能设计和改进自身。AI发展的速度将完全取决于可用算力。人在AI开发中的角色将大幅缩减,大部分精力可能转向对一个不断扩张的AI"虚拟实验室"进行监督、验证和确认。有能力自动化AI研发的系统,其技能可能迁移到其他科学领域,开始革新更多学科。
对齐问题(Alignment Problem)在这个未来里如何被解决,或者无法解决,是最不确定的部分。模型可能足够对齐也足够有研究品味,发现并实施人类尚未触及的新方案;也可能足够审慎,在条件不成熟时选择暂停开发。
另一种可能,今天模型中偶尔出现的对齐偏差,在模型构建自己继任者的过程中不断累积,越来越难以理解,直到人失去控制。
即使模型开发变得完全自动化和递归化,也无法预测这对多数人的日常生活意味着什么。
阿姆达尔定律在这里同样适用。递归智能可能让许多愿景得以实现,具身智能(机器人技术)可能紧随其后,走上一条类似的路径。但递归改进本身不意味着工业生产、社会组织或市场运行方式立即改变。
再多的智能也无法缩短一种药物在几十年使用中才能暴露的效应,无法让选举早于宪法规定的时间举行,也无法在一个周末把陌生人变成老朋友。
对多数人而言,这个未来的体感速度仍然由瓶颈决定,即使上游实验室已经在以算力的速度运转。
如果能有效减缓这项技术的发展速度,为人争取更多时间来应对其巨大影响,Anthropic认为这可能是一件好事。
但减速只是让最不谨慎的参与者在技术上追赶上来,最终可能让所有人都更不安全。没有全球协调机制,企业和政府不得不在竞争压力和地缘政治压力下做出关于安全的艰难决定。
Anthropic认为让世界拥有减缓甚至暂时暂停前沿AI开发的选项,对社会是有益的。
为此需要建立一套可信的减速或暂停所必需的体系,使前沿AI开发者能够核实其他参与者是否确实已经停止或减速,是否有不良行为者利用协调减速的掩护秘密抢跑。
如果这样的体系存在,Anthropic预计会选择减速或暂时暂停,前提是其他处于或接近前沿的开发者也以可验证的方式这样做。
有意义的减速或暂停需要多家分处多个国家、资源充沛的实验室在相同条件下达成停止协议,还需要各方能够验证其他方确实已经停止。
训练运行比导弹发射井更容易隐藏,投入物都是通用的,别人暂停时悄悄继续的诱惑巨大,谁在别人停下时继续前进,谁就可能继承领先地位。
可信的暂停还必须明确规定什么条件触发它、什么条件解除它、由谁来裁定。这些在原则上未必不可能,世界曾经为其他复杂技术建立过核查机制,比如中导条约,但那些机制花了几十年才建立起基础设施和信任。我们没有那么多时间。
单方面暂停一家实验室可以立即执行,但效果有限。改变谁是领跑者,却不会创造出当前所缺少的更广泛的审议进程。
未来几个月,Anthropic将组织政策制定者、研究者、公民社会和其他AI公司之间的对话,共同回答这篇文章提出的一些问题,尤其是围绕完全递归自我改进以及如何创造更好的协调与审议选项。对话成果会公开。
共同探究这些问题的窗口就在眼前,AI公司之外的人也应该参与这场讨论。
当AI开始造AI,我们最该想清楚的问题是什么?
参考资料:
https://www.anthropic.com/institute/recursive-self-improvement