AI自主进化引发的思考

发布时间：2026-06-05 16:09阅读：35

点击上方蓝字👆关注AI信息说

AI信息不迷路

一位员工的真实感受，胜过所有统计数据

「大约一年前，我开始全面Claude化。到现在，我已经五个月没亲手写过代码了。」

这番话来自Anthropic内部员工。

这不是玩笑，而是他们最新博客文章中的真实内容。文章标题为When AI builds itself——当AI开始自我构建。

2024年，Anthropic工程师团队代码库中，AI生成代码的比例仅为个位数。

如今，这个数字已超过80%。

时间跨度：一年多。

转折点是什么？2025年2月，Claude Code上线。AI首次从「回答问题的工具」转变为「能执行代码、提交PR的伙伴」。

从那时起，曲线开始上升。

2026年，模型开始在更长时间内独立工作，曲线再次急剧攀升。到2026年第二季度，典型工程师的日代码产出已是2024年的8倍。

Anthropic自己也承认，8倍可能有些夸大，代码行数无法衡量质量。但今年3月他们对130名研究员的内部调查显示——中位数回答是：产出大约是没有AI时的4倍。

4倍，这仍是保守估计。

仅速度快还不够，真正令人担忧的是质量数据。

Anthropic持续追踪一个指标：在最复杂、最开放任务中，Claude的成功率。

去年11月：26%。

今年5月：76%。

6个月，暴涨50个百分点。

举个真实案例。某次例行升级，突然让数万个训练任务集体崩溃。工程师只给Claude一段文字描述和集群权限，Claude在运行任务中逐一排查，找出一个极隐蔽的调试标志，然后复现、验证、修复。

两小时完成。正常需要两三天。

还有一次，Claude一口气提交800多个修复，将某类API错误压低了1000倍。负责监督的工程师估算：这活儿让人来干，得花4年。

还有一个更具压迫感的数字，来自研究层面。

Anthropic每次发布新模型，都会做同一基准测试：给Claude一段训练AI的代码，要它在保证正确性的前提下，跑得越快越好。

这相当于一个微缩版的AI研究闭环：改代码、跑、计时、再改。

成绩单如下——

一名熟练的人类研究员，花4到8小时，能做到4倍加速。

Claude Mythos Preview，直接达到52倍。

一年前，Claude Opus 4的成绩是3倍。一年时间，从「比人类略差」到「把人类甩出一个数量级」。

还有一个更刁钻的实验。研究人员翻出了真实研究过程里人类「走弯路」的129个节点，把弯路之前的完整上下文喂给Claude，问它：下一步你会怎么做？

另一个能看到最终结局的Claude来当裁判。

Opus 4.5的胜率是51%——比人类略好。

Mythos Preview的胜率是64%——开始在判断层面系统性地超越人类研究员。

Anthropic在文章里用了一个词：研究品味（research taste）。

判断哪些问题值得做、哪些结果可信、哪条路是死胡同——这是目前人类还占据优势的地方。

但他们自己也说得很直接：

AI的进步很少靠「灵光一现」。Transformer那种范式级的灵感，几年才出一次。之间绝大多数的进步，靠的是「放大、看哪坏了、修好、再试」。这恰恰是Claude最擅长的工作流。

至于「研究品味」会不会被攻克？

Anthropic的原话是：「它可能只是又一个AI暂时不会、然后突然就会了的能力。解释笑话、心智理论、语言谜题——哪一个不是这么被攻克的？」

也就是说，他们自己也不知道这张牌还能打多久。

写到这里，这篇文章出现了最戏剧性的一幕。

一家正在疯狂加速、自家80%代码都靠AI生成的公司，突然在文章里写道——

我们相信，让世界拥有「减速或暂停前沿AI开发」的选项，是一件好事。

这话怎么理解？

Anthropic解释得很清楚：他们不是天真地喊「大家都停下」。因为如果只有谨慎者放慢脚步，等于把领先优势拱手送给最不谨慎的那个。

他们要的是：多国、多个前沿实验室、在可验证的条件下，同时按下暂停键。

这是一个真正意义上的「国际核不扩散条约」构想，只不过对象换成了AI。

Anthropic联创Jack Clark在伦敦的演讲里给出过一个数字：2028年底前，AI出现真正意义上「递归自我改进」的概率是60%。

不是科幻小说。是他们内部估算的概率。

读完这篇文章，我想说的是：

Anthropic这次不是在做PR，他们是在留档。

这篇博客写得很像一份技术历史记录——用真实数据，把「AI开始造AI」这件事彻底钉进了时间轴。

至于那个「暂停」呼吁，我不觉得它会真的发生。全球没有任何一个国家愿意先停。但这个呼吁的意义在于：它证明了连做这件事的人，都开始感到不安。

爱迪生说天才是1%的灵感加99%的汗水。汗水正在被自动化。

1%的灵感，还能撑多久？

往期精彩文章：

字节顶级科学家离职，"豆包股" 发完人才流失依旧严重

Gemma 4 谷歌这个12B模型，把云端AI打了个措手不及

OpenAI 重磅官宣 Codex与 ChatGPT，即将迎来史诗级合体

Qwen3.7-Plus 阿里放了一个会看屏幕、会写代码、还会自己点鼠标的模型

英伟达发布全新RTX Spark，全球首个Agent PC

我是AI信息说，持续关注我

让我们打破信息差，让我们一起AI起来

← 上一篇：算法介入情场：AI正在重塑年轻人的亲密关系下一篇：智能时代下父母角色的全新升级 →