AI自主进化引发的思考
点击上方蓝字👆关注AI信息说
AI信息不迷路
一位员工的真实感受,胜过所有统计数据
「大约一年前,我开始全面Claude化。到现在,我已经五个月没亲手写过代码了。」
这番话来自Anthropic内部员工。
这不是玩笑,而是他们最新博客文章中的真实内容。文章标题为When AI builds itself——当AI开始自我构建。
2024年,Anthropic工程师团队代码库中,AI生成代码的比例仅为个位数。
如今,这个数字已超过80%。
时间跨度:一年多。
转折点是什么?2025年2月,Claude Code上线。AI首次从「回答问题的工具」转变为「能执行代码、提交PR的伙伴」。
从那时起,曲线开始上升。
2026年,模型开始在更长时间内独立工作,曲线再次急剧攀升。到2026年第二季度,典型工程师的日代码产出已是2024年的8倍。
Anthropic自己也承认,8倍可能有些夸大,代码行数无法衡量质量。但今年3月他们对130名研究员的内部调查显示——中位数回答是:产出大约是没有AI时的4倍。
4倍,这仍是保守估计。
仅速度快还不够,真正令人担忧的是质量数据。
Anthropic持续追踪一个指标:在最复杂、最开放任务中,Claude的成功率。
去年11月:26%。
今年5月:76%。
6个月,暴涨50个百分点。
举个真实案例。某次例行升级,突然让数万个训练任务集体崩溃。工程师只给Claude一段文字描述和集群权限,Claude在运行任务中逐一排查,找出一个极隐蔽的调试标志,然后复现、验证、修复。
两小时完成。正常需要两三天。
还有一次,Claude一口气提交800多个修复,将某类API错误压低了1000倍。负责监督的工程师估算:这活儿让人来干,得花4年。
还有一个更具压迫感的数字,来自研究层面。
Anthropic每次发布新模型,都会做同一基准测试:给Claude一段训练AI的代码,要它在保证正确性的前提下,跑得越快越好。
这相当于一个微缩版的AI研究闭环:改代码、跑、计时、再改。
成绩单如下——
一名熟练的人类研究员,花4到8小时,能做到4倍加速。
Claude Mythos Preview,直接达到52倍。
一年前,Claude Opus 4的成绩是3倍。一年时间,从「比人类略差」到「把人类甩出一个数量级」。
还有一个更刁钻的实验。研究人员翻出了真实研究过程里人类「走弯路」的129个节点,把弯路之前的完整上下文喂给Claude,问它:下一步你会怎么做?
另一个能看到最终结局的Claude来当裁判。
Opus 4.5的胜率是51%——比人类略好。
Mythos Preview的胜率是64%——开始在判断层面系统性地超越人类研究员。
Anthropic在文章里用了一个词:研究品味(research taste)。
判断哪些问题值得做、哪些结果可信、哪条路是死胡同——这是目前人类还占据优势的地方。
但他们自己也说得很直接:
AI的进步很少靠「灵光一现」。Transformer那种范式级的灵感,几年才出一次。之间绝大多数的进步,靠的是「放大、看哪坏了、修好、再试」。这恰恰是Claude最擅长的工作流。
至于「研究品味」会不会被攻克?
Anthropic的原话是:「它可能只是又一个AI暂时不会、然后突然就会了的能力。解释笑话、心智理论、语言谜题——哪一个不是这么被攻克的?」
也就是说,他们自己也不知道这张牌还能打多久。
写到这里,这篇文章出现了最戏剧性的一幕。
一家正在疯狂加速、自家80%代码都靠AI生成的公司,突然在文章里写道——
我们相信,让世界拥有「减速或暂停前沿AI开发」的选项,是一件好事。
这话怎么理解?
Anthropic解释得很清楚:他们不是天真地喊「大家都停下」。因为如果只有谨慎者放慢脚步,等于把领先优势拱手送给最不谨慎的那个。
他们要的是:多国、多个前沿实验室、在可验证的条件下,同时按下暂停键。
这是一个真正意义上的「国际核不扩散条约」构想,只不过对象换成了AI。
Anthropic联创Jack Clark在伦敦的演讲里给出过一个数字:2028年底前,AI出现真正意义上「递归自我改进」的概率是60%。
不是科幻小说。是他们内部估算的概率。
读完这篇文章,我想说的是:
Anthropic这次不是在做PR,他们是在留档。
这篇博客写得很像一份技术历史记录——用真实数据,把「AI开始造AI」这件事彻底钉进了时间轴。
至于那个「暂停」呼吁,我不觉得它会真的发生。全球没有任何一个国家愿意先停。但这个呼吁的意义在于:它证明了连做这件事的人,都开始感到不安。
爱迪生说天才是1%的灵感加99%的汗水。汗水正在被自动化。
1%的灵感,还能撑多久?
往期精彩文章:
字节顶级科学家离职,"豆包股" 发完人才流失依旧严重
Gemma 4 谷歌这个12B模型,把云端AI打了个措手不及
OpenAI 重磅官宣 Codex与 ChatGPT,即将迎来史诗级合体
Qwen3.7-Plus 阿里放了一个会看屏幕、会写代码、还会自己点鼠标的模型
英伟达发布全新RTX Spark,全球首个Agent PC
我是AI信息说,持续关注我
让我们打破信息差,让我们一起AI起来