AI自主进化:Anthropic揭秘代码自我生成真相
Anthropic发布了一篇深度长文,标题引人深思——《AI开始自我迭代》。
参考链接:
https://www.anthropic.com/institute/recursive-self-improvement
建议大家别去啃原文,太枯燥,万字长文全是图表和枯燥数据。
但这事儿太关键了。我替大家梳理了核心数据和结论,用通俗易懂的语言总结如下。
这是截至2026年5月,Claude在Anthropic代码库中编写的代码占比。
不是写草稿,不是提建议,也不是说“你可以这么改”。
而是真正写入生产环境的代码,其中80%由AI独立完成。
一年前这个数字还是个位数,如今Anthropic工程师每季度编写的代码量已是2021-2025年的8倍。
不是人变快了,是人不再动笔了。人类负责定方向,AI负责编写,人类负责审核。
2024年3月,Claude Opus 3能独立处理的任务,相当于人类4分钟的工作量。
2025年初,Claude Sonnet 3.7提升至1.5小时。
2026年初,Claude Opus 4.6提升至12小时。
若这一趋势持续下去——
今年内,AI可能独立完成需数日才能完成的工作;
明年,可能是几周。这是什么概念?
SWE-bench——衡量AI真实编程能力的标准测试。
两年前模型得分还是个位数,如今已接近满分。
CORE-Bench——评估AI能否复现科研论文成果的测试。
2024年成功率约20%,15个月后逼近满分,这早已超越了“进步神速”。
而是一条肉眼可见的持续上升曲线。
Anthropic做了一个实验,给Claude一段训练模型的代码,目标只有一个:
即在保证正确的前提下,尽可能提升运行速度。
相当于告诉工程师:“优化这段代码,越快越好。”结果很有意思。
2025年5月,Claude Opus 4让代码提速3倍,熟练人类研究员需4-8小时才能做到4倍。看似接近,但到了2026年4月。
Claude Mythos Preview让代码提速52倍,从“超级有用”跃升至“超越人类”,仅用不到一年。
Anthropic在研究中反复提及一个词:Recursive Self-Improvement。
翻译过来就是:AI自主设计、自主训练、自主改进下一代AI。
目前尚未完全实现,今天的AI仍需人类确定方向、提出问题、做出最终判断。但趋势已非常明显:
代码不再需要人写;
实验不再需要人跑;
Bug不再需要人找;
那下一步呢?方向还能一直由人决定吗?Anthropic进行了一项测试。
在129个真实科研场景中,让Claude和人类研究员分别提出“下一步最值得研究什么”,再由另一个不知情的Claude担任裁判。结果:
2025年11月,Opus 4.5优于人类方案51%。勉强领先。
2026年4月,Mythos Preview达到64%。
如果所谓的“研究品味”也是一种可被训练的能力呢?
如果它和代码能力、推理能力一样,也不过是时间问题呢?
Anthropic设想了三种可能性。
S曲线触顶。算力不足、能源受限,或者人的判断力始终是AI无法跨越的边界。如果是这样,世界还有时间慢慢消化这一切。
100人的公司干出1万人的产出。
100人的公司干出10万人的产出。效率指数级提升。
但监督、验证和管理可能跟不上。
人的角色降至最低,发展速度不再取决于人,而取决于算力。
Anthropic对此非常坦诚:
他们认为第二种情况已经在路上。
而第三种,不确定,但绝非不可能。
文章中有句话令我印象深刻:
“我们还没看到那条曲线开始弯曲。”
这篇文章从头到尾其实只说了一件事:
不是AI会不会取代人,而是:AI正在学会自己制造AI。
这对每个人的意义都不同,
对AI公司而言,是:
“我们还有时间建立监管体系吗?”
对程序员而言,是:
“写代码这件事,未来可能不再是核心竞争力。”
对普通人而言,是:
“这个时代的变化速度,比我们想象的还要快一个量级。”
我盯着那个“80%”的数字看了许久。
不是害怕,而是忽然意识到:
我们正站在某个拐弯的路口。
而拐弯之后的路,没人见过....
躬身入局,不被抛弃、不被遗弃,才是当下的我们每个人需要结合自身实际情况深入思考的问题 ......
路漫漫其修远兮,但时间不会等你 ......
2026年6月8日夜读Anthropic《When AI Builds Itself》有感
更多内容:关注微信公众号、视频号「德道学习」,一起读书、健身、定投、思考、陪家人、助人。