标签

AI自主进化引发的思考

发布时间:2026-06-05 16:09来源:微信阅读:2

点击上方蓝字👆关注AI信息说

AI信息不迷路

一位员工的真实感受,胜过所有统计数据

「大约一年前,我开始全面Claude化。到现在,我已经五个月没亲手写过代码了。」

这番话来自Anthropic内部员工。

这不是玩笑,而是他们最新博客文章中的真实内容。文章标题为When AI builds itself——当AI开始自我构建。

2024年,Anthropic工程师团队代码库中,AI生成代码的比例仅为个位数。

如今,这个数字已超过80%。

时间跨度:一年多。

转折点是什么?2025年2月,Claude Code上线。AI首次从「回答问题的工具」转变为「能执行代码、提交PR的伙伴」。

从那时起,曲线开始上升。

2026年,模型开始在更长时间内独立工作,曲线再次急剧攀升。到2026年第二季度,典型工程师的日代码产出已是2024年的8倍。

Anthropic自己也承认,8倍可能有些夸大,代码行数无法衡量质量。但今年3月他们对130名研究员的内部调查显示——中位数回答是:产出大约是没有AI时的4倍。

4倍,这仍是保守估计。

仅速度快还不够,真正令人担忧的是质量数据。

Anthropic持续追踪一个指标:在最复杂、最开放任务中,Claude的成功率。

去年11月:26%。

今年5月:76%。

6个月,暴涨50个百分点。

举个真实案例。某次例行升级,突然让数万个训练任务集体崩溃。工程师只给Claude一段文字描述和集群权限,Claude在运行任务中逐一排查,找出一个极隐蔽的调试标志,然后复现、验证、修复。

两小时完成。正常需要两三天。

还有一次,Claude一口气提交800多个修复,将某类API错误压低了1000倍。负责监督的工程师估算:这活儿让人来干,得花4年。

还有一个更具压迫感的数字,来自研究层面。

Anthropic每次发布新模型,都会做同一基准测试:给Claude一段训练AI的代码,要它在保证正确性的前提下,跑得越快越好。

这相当于一个微缩版的AI研究闭环:改代码、跑、计时、再改。

成绩单如下——

一名熟练的人类研究员,花4到8小时,能做到4倍加速。

Claude Mythos Preview,直接达到52倍。

一年前,Claude Opus 4的成绩是3倍。一年时间,从「比人类略差」到「把人类甩出一个数量级」。

还有一个更刁钻的实验。研究人员翻出了真实研究过程里人类「走弯路」的129个节点,把弯路之前的完整上下文喂给Claude,问它:下一步你会怎么做?

另一个能看到最终结局的Claude来当裁判。

Opus 4.5的胜率是51%——比人类略好。

Mythos Preview的胜率是64%——开始在判断层面系统性地超越人类研究员。

Anthropic在文章里用了一个词:研究品味(research taste)。

判断哪些问题值得做、哪些结果可信、哪条路是死胡同——这是目前人类还占据优势的地方。

但他们自己也说得很直接:

AI的进步很少靠「灵光一现」。Transformer那种范式级的灵感,几年才出一次。之间绝大多数的进步,靠的是「放大、看哪坏了、修好、再试」。这恰恰是Claude最擅长的工作流。

至于「研究品味」会不会被攻克?

Anthropic的原话是:「它可能只是又一个AI暂时不会、然后突然就会了的能力。解释笑话、心智理论、语言谜题——哪一个不是这么被攻克的?」

也就是说,他们自己也不知道这张牌还能打多久。

写到这里,这篇文章出现了最戏剧性的一幕。

一家正在疯狂加速、自家80%代码都靠AI生成的公司,突然在文章里写道——

我们相信,让世界拥有「减速或暂停前沿AI开发」的选项,是一件好事。

这话怎么理解?

Anthropic解释得很清楚:他们不是天真地喊「大家都停下」。因为如果只有谨慎者放慢脚步,等于把领先优势拱手送给最不谨慎的那个。

他们要的是:多国、多个前沿实验室、在可验证的条件下,同时按下暂停键。

这是一个真正意义上的「国际核不扩散条约」构想,只不过对象换成了AI。

Anthropic联创Jack Clark在伦敦的演讲里给出过一个数字:2028年底前,AI出现真正意义上「递归自我改进」的概率是60%。

不是科幻小说。是他们内部估算的概率。

读完这篇文章,我想说的是:

Anthropic这次不是在做PR,他们是在留档。

这篇博客写得很像一份技术历史记录——用真实数据,把「AI开始造AI」这件事彻底钉进了时间轴。

至于那个「暂停」呼吁,我不觉得它会真的发生。全球没有任何一个国家愿意先停。但这个呼吁的意义在于:它证明了连做这件事的人,都开始感到不安。

爱迪生说天才是1%的灵感加99%的汗水。汗水正在被自动化。

1%的灵感,还能撑多久?

往期精彩文章:

字节顶级科学家离职,"豆包股" 发完人才流失依旧严重

Gemma 4 谷歌这个12B模型,把云端AI打了个措手不及

OpenAI 重磅官宣 Codex与 ChatGPT,即将迎来史诗级合体

Qwen3.7-Plus 阿里放了一个会看屏幕、会写代码、还会自己点鼠标的模型

英伟达发布全新RTX Spark,全球首个Agent PC

我是AI信息说,持续关注我

让我们打破信息差,让我们一起AI起来