AI 自我迭代:代码占比超八成与监管警钟
有梦想的人不睡觉 0122 AI 自我迭代:代码占比超八成与监管警钟 2026 年 6 月 6 日
有梦想的人不睡觉 0122
2026 年 6 月 6 日
6 月 4 日,Anthropic 在其官方博客推出了《当 AI 构建自身》一文,由联合创始人 Jack Clark 与研究院负责人 Marina Favaro 共同执笔,首次向外界曝光了一组从未公开的内部运营数据。
数据脉络异常清晰:截止到 2026 年 5 月,Anthropic 合并至主代码库的代码中,逾八成由 Claude 编写。而在 2025 年 2 月 Claude Code 以研究预览版问世之前,这一比例仅为个位数。短短一年多,Claude 便从"辅助角色"跃升为"主力担当"。
产能层面的转变更为直观。2021 至 2024 年间,Anthropic 工程师的人均日代码合入量基本保持持平;2025 年 Claude 开始独立运行代码后,曲线首次攀升;2026 年模型具备了更长周期的自主工作能力,曲线再次急剧上扬。至 2026 年第二季度,普通工程师的日代码合入量已是 2024 年的 8 倍。
指标 时间节点 数值 Claude 代码占比 2025 年 2 月→2026 年 5 月 个位数% → 超 80% 工程师人均产出 2024 年→2026 年 Q2 基线 → 8 倍 AI 辅助效率 2026 年 3 月内部调查 约 4 倍产出提升 复杂任务成功率 2025 年 11 月→2026 年 5 月 26% → 76%
不仅产出量大,质量亦在逼近人类水平。过去一年中,研究员纠正、打断或中途接管 Claude 任务的频率持续降低。在极具挑战的开放式工程任务里,Claude 的成功率在半年内从 26% 激增至 76%。Claude 编写代码、Claude 审查代码——这一闭环已然运转顺畅。
若说 80% 的代码占比仅是工程层面的冲击,那研究领域的突破才是真正的"奇点信号"。
Anthropic 每次发布新模型都会执行同一项测试:向 Claude 提供一段训练小型 AI 模型的代码,要求其在确保正确性的基础上优化运行速度。这本质上是一个微缩版的 AI 研究实验循环——修改代码、运行、计时、再修改。
对比熟练人类研究员需 4 到 8 小时才能实现 4 倍加速,Claude Mythos Preview 在 2026 年 4 月达成了约 52 倍的加速效果——领先人类一个数量级。
一年光阴,从"超级好用"跨越至"超人水准" 训练代码优化:2025 年 3 倍加速 → 2026 年 52 倍加速
一年光阴,从"超级好用"跨越至"超人水准"
训练代码优化:2025 年 3 倍加速 → 2026 年 52 倍加速
公开基准测试也佐证了这一趋势。CORE-Bench 测试模型复现已有研究成果的能力,2024 年 AI 成功率约为 20%,仅 15 个月后便接近满分。METR 机构发现 Claude Mythos Preview 能连续工作至少 16 小时,表现已触及现有评测体系的上限。
Anthropic 自身描绘了清晰的演进路线:2023 年前由人类主导→2025 年聊天辅助→2026 年编程智能体→当下自主智能体→未来 AI 完全自主构建继任者。每一步都在加速推进。
这篇文章最富戏剧性的部分并非数据,而是其结论。
在详尽阐述递归自我改进将以前所未有的速度到来后,这家估值近万亿、刚刚秘密递交 IPO 文件的公司,突然发出严肃倡议:在必要时刻,全球应协调暂停或放缓前沿 AI 的研发步伐。
Jack Clark 在 CNN 采访中的比喻被广泛引用:"看看我们驾驶的这辆车,我只有油门,却缺少刹车。在未来的某个节点,我们必然需要刹车这一选项。"
Clark 在伦敦演讲中给出了一个更具体的概率研判:2028 年底前,出现递归自我改进的概率为 60%。
这一时间点显得过于微妙。
5 月 28 日,Anthropic 完成了 650 亿美元的 H 轮融资,估值高达 9650 亿美元,超越 OpenAI 成为全球估值最高的私营 AI 企业。6 月 1 日,秘密提交 IPO 申请。年化营收从 2025 年底的 90 亿美元飙升至 2026 年 6 月底的 500 亿美元。
在此背景下,一家估值万亿的企业突然呼吁"踩下刹车",网友反应呈现两极分化。批评者直指这是"监管俘获"——通过渲染 AI 风险向监管施压,从而限制开源模型等竞争对手。有人直言:"这是有史以来撰写得最精彩的筹款演示文稿。"
但沃顿商学院教授 Ethan Mollick 的评价更为公允:"文章值得细读,其中既有自省,也有营销成分,更包含了许多 Anthropic 对 AI 未来的真实见解。"Clark 也回应称:Anthropic 一直是 AI 时间线预测最为保守的实验室之一——当此类公司发出预警时,其分量远超其他机构。
回归数据的本质。
80% 的代码由 AI 完成、8 倍产能跃升、52 倍研究加速、76% 复杂任务成功率——每一个数字都是飞轮加速的咔哒回响。
Claude 编写的代码在 2025 年底尚略逊于人类,如今已大致持平,Anthropic 预期一年内将严格超越人类。最后一道关卡是"研究品味"——AI 目前在选定研究方向及判断探索价值方面仍远不如人类。但一旦这一关被攻克,AI 研发的速度将仅由算力决定。
更令人担忧的是 Anthropic 自身提出的警示:今日模型中那些罕见的失准行为,可能在代代自我构建中复合放大,愈发频繁,愈发难以理解,直至失控。
当建造者转变为被建造者,谁在把持方向盘? AI 从工具到建造者的进化,正使这一追问从科幻走向现实。 而现实的速度,远比多数人预想的要快。
当建造者转变为被建造者,谁在把持方向盘?
AI 从工具到建造者的进化,正使这一追问从科幻走向现实。
而现实的速度,远比多数人预想的要快。
数据