AI自主研发能力急剧攀升，Anthropic发出暂停开发警示

发布时间：2026-06-08 18:38阅读：35

在全球人工智能竞争日趋激烈的大背景下，AI安全领域的领军企业Anthropic发布了一份重磅声明。他们在最新发布的深度分析文章中，通过大量实际数据论证了AI正在加速实现自我进化，并罕见地公开建议：在必要情况下，应当建立一套国际协同、可交叉验证的前沿AI开发暂停机制。这一消息立即引发了业界的广泛热议。

据悉，Anthropic旗下的Claude模型目前已在公司内部承担了超过80%的代码开发工作，工程师的工作效率提升了整整8倍，实验迭代速度也大幅超越人类研究员。这篇名为《When AI builds itself》的博文中明确指出，“递归自我改进”（Recursive Self-Improvement，简称RSI）已从理论假设转变为活生生的现实，人类在AI研发领域的参与度正在急剧下降。

Anthropic的表态充满了戏剧性的矛盾色彩。一方面，他们用详实的数据展示了Claude如何推动AI发展飞轮高速运转；另一方面，他们清醒地发出警示：这种自我迭代若失去控制，可能引发对齐困难和社会治理危机。因此，他们倡导为“减速或暂停”保留选项，但特别强调这必须建立在全球主要实验室在同等条件下同步行动、且具备相互验证机制的前提之上。这不是简单地喊停，而是直指技术奇点临近时的制度空白。

Anthropic的博文以实际数据开篇，消除了外界对AI辅助编程的疑虑。截至2026年5月，在他们的代码库中，超过80%的最终提交代码出自Claude之手。而在2025年2月Claude Code正式发布之前，这一比例还停留在个位数。短短一年多时间，Claude就从“辅助工具”蜕变为“核心力量”。

更为显著的是工程师产出效率的变化。2021至2024年间，Anthropic工程师每日平均提交的代码量基本保持平稳。自2025年Claude开始自主执行代码后，产出开始攀升；2026年模型能够自主运行更长时间后，产出曲线急剧上扬。截至2026年第二季度，普通工程师每日提交的代码量已达2024年的8倍。一位内部员工透露：“大约一年前我开始全面使用Claude，至今已有5个月没有亲手编写过一行代码了。”

Anthropic也坦诚，代码行数增长代表的是数量而非质量。但内部调研显示，130名研究员自我评估认为，使用AI辅助后的产出约为之前的4倍。更值得关注的是质量层面的提升。在最具开放性、最具挑战性的任务中，Claude的成功率从半年前的26%跃升至76%，半年内增长了50个百分点。研究员需要修正、干预或接管Claude的情况在持续减少。

真实案例令人震撼：某次训练任务突发集体崩溃，工程师仅提供了文字描述和相应权限，Claude在两小时内便完成了问题排查、复现、验证和修复，而常规情况下人类通常需要两三天才可能完成。另有一次“代码全面优化”行动，Claude提交了800多项修复，将某类API错误降低了1000倍，相当于节省了人类4年的工作量。目前Anthropic已让Claude参与代码审查流程，所有提交都会先经过自动化检查，过滤bug和安全漏洞。分析表明，这能提前拦截约三分之一可能引发线上故障的bug。

Claude不仅编写代码，还逐步承担代码审核职责，形成了完整的闭环。这充分说明AI在工程环节已实现高度自主化。

研究效率提升52倍，递归自我改进趋势日益明显

如果说代码编写是工程层面的突破，那么研究层面的进展则更令人惊叹。Anthropic每次发布新模型，都会进行一项相同的测试：向Claude提供一段训练小型AI模型的代码，要求它在确保正确性的前提下尽可能提升速度。这相当于一个微缩版的AI研究流程。

结果极具冲击力：2025年5月，Claude Opus 4实现了约3倍加速；2026年4月，Claude Mythos Preview直接达到了52倍加速。而一位熟练的人类研究员，通常需要4至8小时才能实现4倍加速。一年之内，Claude在目标明确的任务上已将人类甩开一个数量级。

更关键的是“研究判断力”的出现。Anthropic收集了129个人类研究员过去真实研究中“走弯路”的案例，仅向Claude提供弯路之前的上下文，让它建议下一步行动，再由知晓完整结果的Claude来评判对错。结果显示，2025年11月的Opus 4.5给出更优建议的概率为51%；2026年4月的Mythos Preview提升至64%。

另一项端到端实验同样令人震惊：将Claude智能体投入一个开放的AI安全难题，令其自主提出假设、设计实验、并行交流。两位人类研究员花费一周时间仅追回了23%的性能差距；而Claude智能体团队用约800小时累计算力和1.8万美元，追回了97%的性能差距。人类主要只参与了选题环节。

Anthropic还引入了新指标——“AI独立完成任务的工作时长”。2024年3月，Claude Opus 3能处理人类约4分钟的任务量；一年后Sonnet 3.7达到1.5小时；最新的Mythos在内测中已能连续工作至少16小时，接近METR框架的上限。若这一趋势延续，2027年可能达到数周。

这些数据共同指向一个结论：人类在AI开发各环节的作用正在持续萎缩。代码编写、实验执行、代码审核、甚至部分实验设计，Claude都在逐步接管。人类最后的优势或许只剩“研究品味”——判断哪个问题有价值、结果是否可信、路径是否可行。但Anthropic认为，这可能只是AI尚未攻克的暂时短板。历史上，理解幽默、心智理论、语言谜题等能力，都曾经历过“突然就会”的突破过程。

根据阿姆达尔定律，整体速度受最慢环节限制。目前Anthropic已面临代码审查排队、新想法吸收慢等新瓶颈，但AI自我加速的趋势丝毫未减。

三种可能未来与暂停呼吁

Anthropic勾勒了三种可能的发展路径：

第一种是趋势停滞，能力曲线转为S型。可能原因是“研究品味”无法仅靠扩大规模解决，或者受到芯片、能源、供应链的制约。即便AI能力停留在当前水平，影响也已相当巨大——Mythos Preview在Project Glasswing项目中仅用数周就发现了全球关键系统中超过1万个高危漏洞，网络防御从“寻找漏洞”变成了“来不及修复”。

第二种是复合加速持续，人类仍掌握方向。100人团队能完成过去1万甚至10万人组织的工作。这是Anthropic认为最可能发生的情况。但效率提升也可能放大监控、操纵等风险。

第三种是完全递归自我改进。AI自主设计、训练、迭代下一代，速度仅受算力限制，人类退居监督角色。这种情况下，对齐偏差可能在迭代中不断放大，最终失去控制。Anthropic联合创始人Jack Clark曾估计，2028年底前出现RSI的概率约为60%。

正是出于对第三种路径的担忧，Anthropic发出呼吁：让世界拥有“减速或暂停前沿AI开发”的选项是有益的，这样社会结构和对齐研究才能跟上技术发展的步伐。他们特别强调，不能只有谨慎的公司减速，否则优势会让给最不谨慎的参与者。有效的机制需要多个国家、多个主要实验室在同等条件下同步行动，并且可以相互验证。

这一立场并非孤例。OpenAI最近的博文也指出，RSI的早期迹象已经出现，会加剧竞争和治理挑战。Anthropic的表态反映了行业领军者对技术奇点的复杂心态：既拥抱加速带来的巨大潜力（药物、材料、能源、机器人等领域可能迎来爆发），又对潜在失控风险保持高度警惕。

当AI开始自主构建AI，通往超级智能（ASI）的“智能爆炸”临界点已悄然临近。80%代码、8倍产能、52倍实验加速、64%判断胜率……每一个数字都在推动飞轮加速旋转。剩下的最后一环，可能就是研究品味。一旦实现突破，AI研发将彻底摆脱人类速度的限制，代际更迭将成为常态。

Anthropic的文章如同一面镜子，映射出当前AI发展的双刃剑特性。全球应当如何应对？是继续全力冲刺，还是在关键节点设置安全护栏？这场讨论才刚刚拉开帷幕，但Anthropic已用数据和呼吁为对话定下了基调。未来几年，很可能成为决定人类与AI如何共生共存的关键窗口期。

← 上一篇：爱是 ai 而非 AI：莫让算法取代真情下一篇：梅奥携手微软开发医疗AI，中国医疗模式有何不同？ →