Claude正在渗透研发流程:Anthropic万字长文揭示AI介入开发的边界与风险
2026 年 6 月 4 日,Anthropic 发布了一篇深度长文,标题直白得让人警醒:《When AI builds itself》。
读完这篇报告,我没有科幻片那种超现实的感觉,反而感到一丝不安。
过去数年,业界一直热议“递归式自我改进”概念。听起来像是遥远的奇点时刻:AI 设计出更强大的下一代,然后无限循环下去。
Anthropic 明确表示,我们显然还没有走到那一步。
但在 AI 生产的流水线上,确实有越来越多的环节,不再需要人类亲手操作。
而且这个替代速度已经超出预期。
超过 80%
截至 2026 年 5 月,Anthropic 合并到正式代码库的代码中,超过 80% 可以归功于 Claude。
2026 年第二季度,一位普通工程师每天合并的代码量,已经是 2024 年的 8 倍。
在一项固定目标的代码优化测试中,2025 年 5 月的 Claude Opus 4 平均能把初始代码提速大约 3 倍。到了 2026 年 4 月,内部预览模型 Mythos Preview 已经能达到大约 52 倍。
作为对比,一位经验丰富的人类研究员花四到八个小时,大约只能做到 4 倍。
更令人震惊的是那个 API 修复案例。2026 年 4 月,Claude 一口气提交了 800 多项修复,将某类错误降低了 1000 倍。负责监督的工程师估算,如果换成人来做,可能需要四年时间。
800 多项修复,错误降低 1000 倍。
按监督工程师的估算,同样的工作量交给人类,大概需要四年。
看到这些数字,第一反应很容易是惊慌:完了,AI 已经开始自己造自己了。
但先别急着下结论。Anthropic 自己多次强调,他们还没有实现完整的递归式自我改进,这件事也不是必然会发生。今天的 Claude 虽然可以大量写代码、运行实验、追踪复杂故障,甚至能在给定问题中自己提出假设和设计方案,但它还没有完全接管最关键的一层:决定研究什么。
这就是整篇文章的分界线。
Anthropic 把研发工作分成了几个层级。最底层是执行明确任务,比如修好一个坏掉的按钮;再往上是拿到目标后自己设计解决办法,比如查清楚网络为什么变慢;更高一层则是判断什么问题值得做,决定下个季度团队到底该造什么。Claude 已经迅速吃掉了前两层的大量工作,人在很多时候只需要给目标,不再需要给方法。可到了最后一层,也就是研究方向、价值判断、结果可信度以及何时该止损,人的优势仍然明显。Anthropic 把这种能力叫作 research taste,我更愿意把它理解成“研究品味与判断力”。
这不是会不会写代码的问题,而是面对一大片未知时,你能不能知道哪块石头值得翻,哪个异常可能藏着真正的东西,哪个看起来漂亮的结果其实是假的,哪条路继续走只是在浪费算力。
过去我们总觉得这部分才是真正不可替代的,但 Anthropic 最担心的恰恰也是这里。他们做了一个内部测试,找出 129 个真实研究过程中的岔路口,这些地方人类研究员当时选了一条不够好的路,绕了一圈才回到正轨。然后,他们只把走偏之前的信息交给不同版本的 Claude,让模型判断下一步该做什么。
结果有点微妙。
2025 年 11 月,Claude Opus 4.5 给出的下一步,有51%被判定比人类当时的选择更好。
到 2026 年 4 月,Mythos Preview 把这个比例推到了64%。
这个实验不能被理解成“Claude 的科研判断已经全面超过人类”。因为样本本来就是刻意挑出来的,人类当时的选择本身就有改进空间。Anthropic 也做了对照,当人类原本的下一步已经很好时,模型只有大约 20% 的建议被判定更好。但这仍然释放了一个很强的信号:研究判断可能不是一道永远跨不过去的墙,它也可能只是另一项模型暂时不擅长、但正在迅速变强的能力。
如果 AI 只会执行,人类还能牢牢掌握方向。
如果 AI 连方向也能逐渐判断,制造下一代 AI 的闭环,就真的开始接近合拢了。
文章里有一句话值得单独拿出来:现在的工作形态,大概是人类提出想法,模型以比过去快一个数量级的速度去实现、测试和评估。研发的成本结构正在改变。以前,一个想法值不值得试,要考虑工程师有没有时间、实验要跑多久、代码要改多少、失败以后损失多大。现在,写代码、跑实验、生成结果消耗的人类时间正在接近于零。算力依然要花钱,但人的时间不再是主要成本。
组织最稀缺的东西也跟着变了:能提出好问题、识别坏答案、完成最终验证的人。
对企业管理者来说,文章里最有用的概念不是 80%、8 倍或 52 倍,而是阿姆达尔定律。这个定律原本来自计算机领域:一套系统能获得多大的整体加速,最终取决于其中最慢、最难加速的部分。AI 把写代码加速了,代码审查会堵住;AI 把实验执行加速了,决定做哪个实验会堵住;AI 把创意产量放大了,组织选择和消化创意的能力会堵住。
Anthropic 已经遇到了这个问题。Claude 生成代码的速度太快,人类审查代码的速度跟不上了。员工借助模型产生的新想法、新项目、新工具和模拟实验,也远远超过公司能够真正推进的数量。所以,一个公司用了多少 AI,已经不是特别有价值的问题。真正的问题是,当一个环节突然快十倍以后,你有没有能力找到下一个堵点,并且重建整个工作流程。
很多企业现在的做法是给每个人买一个模型账号,再统计调用量,这基本没用。如果审批还是三周,数据权限还是拿不到,业务负责人还是无法判断什么结果值得信任,那么模型再快,也只是更快地制造一堆等待审批的半成品。
Anthropic 已经让 Claude 直接进入真实研发环境,接触代码库、运行实验、观察结果、修改方案,再继续执行。
它不再只负责“给答案”,而是在闭环中承担一段完整工作。
这篇文章不能照单全收。
Anthropic 既是数据提供者,也是 Claude 的开发者和受益者。它有充分动机证明自己的模型进步极快,也有动机强调风险和治理的重要性。文章里的核心数据,大多来自 Anthropic 内部,外界无法完整复核。
这里有几个口径必须分清。
员工自报的 4 倍效率,同样可能有明显高估。
这些限制决定了我们能得出什么结论。现在能确认的是,AI 已经显著加速了 AI 研发中的工程执行和实验执行,开始接触一部分研究判断,而且多个可测指标仍在快速上升。它还没有全面超过顶级研究员,也不能独立制造下一代 AI。
我觉得 Anthropic 这篇文章最微妙的地方,是它同时在做两件看起来互相矛盾的事。一边,它拿出内部数据,告诉全世界 Claude 有多强,Anthropic 跑得有多快;另一边,它又说,如果有一种全球可验证的机制,能让所有前沿实验室一起减速或暂时暂停,他们认为这可能是好事。
这里一定要说清楚,Anthropic 没有宣布自己要单方面停下来。它提出的是一种有条件的、协调一致的减速。因为如果只有一家停,最谨慎的玩家退出比赛,最不谨慎的玩家继续加速,整个世界可能反而更危险。
问题是,这种机制极难建立。核武器控制至少还能看导弹井、核材料和试验痕迹,大模型训练使用的是通用芯片、电力和数据中心,训练任务可以隐藏,资源可以挪用,谁在秘密继续推进也很难确认。更麻烦的是,背叛协议的奖励极高。当其他人都停下来时,偷偷继续训练的一方,可能直接获得决定性的领先。Anthropic 借用了军备控制的逻辑,却也承认,过去那些核查机制用了几十年才建立基础设施和信任,而他们觉得 AI 留给人类的时间没有那么多。
技术进步正在压缩决策时间。
可我们用来协调利益、建立制度、形成信任的社会机器,速度几乎没有变。
Anthropic 最后提出了三种未来。一种是能力曲线开始变平,模型遇到架构、能源、芯片、电网或研究判断上的硬瓶颈,指数增长最终变成 S 形曲线;一种是 AI 继续带来复合式效率提升,但人类仍然负责设定方向和判断结果,100 人组织可能完成过去 1 万人甚至 10 万人的工作;还有一种,AI 真正完成递归式自我改进,开始自主设计和制造自己的后继者,人类从研发主体,退到监督、验证和审计的位置。
Anthropic 认为第一种不是最可能的,他们更相信我们至少正走向第二种,而第三种不能排除。
我的判断稍微保守一点。从“AI 大量参与研发”到“AI 自主制造下一代 AI”,中间不是一条平滑直线。代码数量不是科学突破,局部实验优化不是完整研究能力,能找到下一步也不等于能决定十年方向。现实世界还有算力、能源、制造、组织、法律、临床试验和人际信任这些慢变量。更强的智能,也不能把十年的药物副作用压缩到一周观察完,不能让一场依法四年举行的选举明天完成,更不能让一个陌生人在周末变成老朋友。这一点 Anthropic 自己也写得很清楚。
未来不会简单地变成“AI 快了,一切都同时快起来”。更可能的情况是,上游智能以算力的速度狂奔,下游世界仍然被物理、制度和人类关系卡住。我们会同时生活在这两种速度里。
回到《When AI builds itself》这个标题。
AI 还没有真的完整造出自己,但它已经走进了制造自己的工厂。它在写代码,在跑实验,在查故障,在提出下一步,也在审查人类留下的错误。
人类还握着方向盘。
只是我们最好别再假装,副驾驶上坐着的东西,只会帮忙查地图。