标签

AI自主研发能力急剧攀升,Anthropic发出暂停开发警示

发布时间:2026-06-08 18:38来源:微信阅读:2

在全球人工智能竞争日趋激烈的大背景下,AI安全领域的领军企业Anthropic发布了一份重磅声明。他们在最新发布的深度分析文章中,通过大量实际数据论证了AI正在加速实现自我进化,并罕见地公开建议:在必要情况下,应当建立一套国际协同、可交叉验证的前沿AI开发暂停机制。这一消息立即引发了业界的广泛热议。

据悉,Anthropic旗下的Claude模型目前已在公司内部承担了超过80%的代码开发工作,工程师的工作效率提升了整整8倍,实验迭代速度也大幅超越人类研究员。这篇名为《When AI builds itself》的博文中明确指出,“递归自我改进”(Recursive Self-Improvement,简称RSI)已从理论假设转变为活生生的现实,人类在AI研发领域的参与度正在急剧下降。

Anthropic的表态充满了戏剧性的矛盾色彩。一方面,他们用详实的数据展示了Claude如何推动AI发展飞轮高速运转;另一方面,他们清醒地发出警示:这种自我迭代若失去控制,可能引发对齐困难和社会治理危机。因此,他们倡导为“减速或暂停”保留选项,但特别强调这必须建立在全球主要实验室在同等条件下同步行动、且具备相互验证机制的前提之上。这不是简单地喊停,而是直指技术奇点临近时的制度空白。

Anthropic的博文以实际数据开篇,消除了外界对AI辅助编程的疑虑。截至2026年5月,在他们的代码库中,超过80%的最终提交代码出自Claude之手。而在2025年2月Claude Code正式发布之前,这一比例还停留在个位数。短短一年多时间,Claude就从“辅助工具”蜕变为“核心力量”。

更为显著的是工程师产出效率的变化。2021至2024年间,Anthropic工程师每日平均提交的代码量基本保持平稳。自2025年Claude开始自主执行代码后,产出开始攀升;2026年模型能够自主运行更长时间后,产出曲线急剧上扬。截至2026年第二季度,普通工程师每日提交的代码量已达2024年的8倍。一位内部员工透露:“大约一年前我开始全面使用Claude,至今已有5个月没有亲手编写过一行代码了。”

Anthropic也坦诚,代码行数增长代表的是数量而非质量。但内部调研显示,130名研究员自我评估认为,使用AI辅助后的产出约为之前的4倍。更值得关注的是质量层面的提升。在最具开放性、最具挑战性的任务中,Claude的成功率从半年前的26%跃升至76%,半年内增长了50个百分点。研究员需要修正、干预或接管Claude的情况在持续减少。

真实案例令人震撼:某次训练任务突发集体崩溃,工程师仅提供了文字描述和相应权限,Claude在两小时内便完成了问题排查、复现、验证和修复,而常规情况下人类通常需要两三天才可能完成。另有一次“代码全面优化”行动,Claude提交了800多项修复,将某类API错误降低了1000倍,相当于节省了人类4年的工作量。目前Anthropic已让Claude参与代码审查流程,所有提交都会先经过自动化检查,过滤bug和安全漏洞。分析表明,这能提前拦截约三分之一可能引发线上故障的bug。

Claude不仅编写代码,还逐步承担代码审核职责,形成了完整的闭环。这充分说明AI在工程环节已实现高度自主化。

研究效率提升52倍,递归自我改进趋势日益明显

如果说代码编写是工程层面的突破,那么研究层面的进展则更令人惊叹。Anthropic每次发布新模型,都会进行一项相同的测试:向Claude提供一段训练小型AI模型的代码,要求它在确保正确性的前提下尽可能提升速度。这相当于一个微缩版的AI研究流程。

结果极具冲击力:2025年5月,Claude Opus 4实现了约3倍加速;2026年4月,Claude Mythos Preview直接达到了52倍加速。而一位熟练的人类研究员,通常需要4至8小时才能实现4倍加速。一年之内,Claude在目标明确的任务上已将人类甩开一个数量级。

更关键的是“研究判断力”的出现。Anthropic收集了129个人类研究员过去真实研究中“走弯路”的案例,仅向Claude提供弯路之前的上下文,让它建议下一步行动,再由知晓完整结果的Claude来评判对错。结果显示,2025年11月的Opus 4.5给出更优建议的概率为51%;2026年4月的Mythos Preview提升至64%。

另一项端到端实验同样令人震惊:将Claude智能体投入一个开放的AI安全难题,令其自主提出假设、设计实验、并行交流。两位人类研究员花费一周时间仅追回了23%的性能差距;而Claude智能体团队用约800小时累计算力和1.8万美元,追回了97%的性能差距。人类主要只参与了选题环节。

Anthropic还引入了新指标——“AI独立完成任务的工作时长”。2024年3月,Claude Opus 3能处理人类约4分钟的任务量;一年后Sonnet 3.7达到1.5小时;最新的Mythos在内测中已能连续工作至少16小时,接近METR框架的上限。若这一趋势延续,2027年可能达到数周。

这些数据共同指向一个结论:人类在AI开发各环节的作用正在持续萎缩。代码编写、实验执行、代码审核、甚至部分实验设计,Claude都在逐步接管。人类最后的优势或许只剩“研究品味”——判断哪个问题有价值、结果是否可信、路径是否可行。但Anthropic认为,这可能只是AI尚未攻克的暂时短板。历史上,理解幽默、心智理论、语言谜题等能力,都曾经历过“突然就会”的突破过程。

根据阿姆达尔定律,整体速度受最慢环节限制。目前Anthropic已面临代码审查排队、新想法吸收慢等新瓶颈,但AI自我加速的趋势丝毫未减。

三种可能未来与暂停呼吁

Anthropic勾勒了三种可能的发展路径:

第一种是趋势停滞,能力曲线转为S型。可能原因是“研究品味”无法仅靠扩大规模解决,或者受到芯片、能源、供应链的制约。即便AI能力停留在当前水平,影响也已相当巨大——Mythos Preview在Project Glasswing项目中仅用数周就发现了全球关键系统中超过1万个高危漏洞,网络防御从“寻找漏洞”变成了“来不及修复”。

第二种是复合加速持续,人类仍掌握方向。100人团队能完成过去1万甚至10万人组织的工作。这是Anthropic认为最可能发生的情况。但效率提升也可能放大监控、操纵等风险。

第三种是完全递归自我改进。AI自主设计、训练、迭代下一代,速度仅受算力限制,人类退居监督角色。这种情况下,对齐偏差可能在迭代中不断放大,最终失去控制。Anthropic联合创始人Jack Clark曾估计,2028年底前出现RSI的概率约为60%。

正是出于对第三种路径的担忧,Anthropic发出呼吁:让世界拥有“减速或暂停前沿AI开发”的选项是有益的,这样社会结构和对齐研究才能跟上技术发展的步伐。他们特别强调,不能只有谨慎的公司减速,否则优势会让给最不谨慎的参与者。有效的机制需要多个国家、多个主要实验室在同等条件下同步行动,并且可以相互验证。

这一立场并非孤例。OpenAI最近的博文也指出,RSI的早期迹象已经出现,会加剧竞争和治理挑战。Anthropic的表态反映了行业领军者对技术奇点的复杂心态:既拥抱加速带来的巨大潜力(药物、材料、能源、机器人等领域可能迎来爆发),又对潜在失控风险保持高度警惕。

当AI开始自主构建AI,通往超级智能(ASI)的“智能爆炸”临界点已悄然临近。80%代码、8倍产能、52倍实验加速、64%判断胜率……每一个数字都在推动飞轮加速旋转。剩下的最后一环,可能就是研究品味。一旦实现突破,AI研发将彻底摆脱人类速度的限制,代际更迭将成为常态。

Anthropic的文章如同一面镜子,映射出当前AI发展的双刃剑特性。全球应当如何应对?是继续全力冲刺,还是在关键节点设置安全护栏?这场讨论才刚刚拉开帷幕,但Anthropic已用数据和呼吁为对话定下了基调。未来几年,很可能成为决定人类与AI如何共生共存的关键窗口期。