AI参与研发的进程超预期加速

发布时间：2026-06-10 04:30阅读：14

「执行」的成本趋近于零，「决策」成为核心价值

爱迪生名言中99%的汗水正被机器接管

近日，Anthropic旗下的研究机构Anthropic Institute发布了一份报告。

内容并非关于模型性能提升或新纪录，而是其内部正在发生的转变。

AI在AI研发中的参与度日益加深。

这种参与不是简单的代码辅助，而是编写大量代码、独立实验、做出研究决策级别的深度介入。

文中提到一组数据，截至2026年5月，Anthropic代码库中超过80%的代码由Claude生成。注意，这80%的作者字段直接标注为Claude。

这个比例在2025年2月，即Claude Code发布前，还只是个位数。

说实话，看到这里我只有一个感受。

这个变化比预想中来得更快。

不仅是代码数量增加。Anthropic统计了工程师每日合并到代码库的代码行数。2021至2024年基本持平，2025年Claude开始运行代码后开始上升，到2026年第二季度，直接增长至2024年的8倍。

8倍。

Anthropic也承认，代码行数是粗略指标，8倍可能高估了实际效率。但他们对130名研究员的调查显示，使用Mythos Preview后，个人产出中位数约为原来的4倍。

还有一个更直观的数据。内部有项标准化测试，要求Claude在不改变正确性的前提下优化训练代码速度。去年5月，Claude Opus 4实现了约3倍加速。今年4月，Mythos Preview实现了52倍加速。

一个熟练研究员完成相同任务通常需要4到8小时才能实现4倍加速。

注意，这不仅仅是“AI比人快一点”，而是“人需要半天完成的事，AI实现了数量级上的超越”。而且这个差距扩大的速度本身也在加快。

Anthropic还公开了一个更完整的实验。让Claude独立完成一个AI安全研究项目，研究弱模型是否能可靠监督强模型。两个人类研究员花了一周时间，将天花板和地板之间的差距缩小了约23%。而Claude仅用800小时计算时间和18000美元算力，就完成了97%的进度。

23%与97%。一周工作量与一键运行的对比。

写到这里你可能会觉得，这不过是“AI很能写代码”的老生常谈。但Anthropic这篇文章真正值得深思的，不是性能数据。

而是人的角色正在发生怎样的变化。

文章引用了一位员工的描述，现在的工作模式是“人提出想法，模型来实现、测试、评估”，效率比过去高了几个数量级。同一位员工还说，人的比较优势仍在于“看到更大的图景”。

将这句话放在整篇文章的语境中读，有一种难以言喻的紧迫感。

因为Anthropic还做了另一个实验，专门测试“判断力”这件事。他们回顾了今年1月到3月研究员的129个真实工作会话，找出那些人类做出“绕路”决策的时刻，然后将这些记录喂给Claude，问它接下来会如何选择。

让另一个独立的Claude来判断，谁的选择更优。

结果去年11月的Claude Opus 4.5，在51%的情况下选择优于人。今年4月的Mythos Preview，64%。

64%虽不碾压，但这种趋势性变化不容忽视，“知道什么值得做”、“看到更大的图景”这原本是人类最后的护城河。

如果这条护城河也在被逐步填平…

还剩下什么？

Anthropic的原话是这么说的：“执行，写代码、跑实验、产出结果，现在几乎不消耗任何人类时间了，虽然在算力上仍然有成本。”

试想一下，在一个前沿AI实验室里，“做”的成本降到了趋近于零。

那人不做事了，人干嘛？

文章里另一位工程师说了一段让人愣住的话。他说大概有5个月没自己写过一行代码了。在好的日子里，会觉得很难受，所有事情都被自动完成了，自己做那点东西好像毫无意义。在坏的日子里，一切都在崩，而他突然发现，“我已经完全不知道自己在干什么了”。

这不是制造焦虑。这是在一线干活的人真实的体感。当你的手离开方向盘足够久，某天车打滑的时候你发现，自己已经不会握方向了。

一种新的分工正在快速形成。

人负责选方向、做判断、拍板“这个值得做”“那个是死胡同”。AI负责把剩下的一切跑完。

但这个分工稳不稳，没人知道。

Anthropic自己也承认了这种不安。文章里有一句写得相当坦诚，如果研究品味和判断力，本身也只是AI暂时做不到、以后能做到的另一项能力呢。

他们引用了爱迪生那句老话，天才是一分灵感加九十九分汗水。汗水正在被自动化。那一分灵感，到底是人类独有的，还是只是还没被攻克的下一道题。

这个问题，坦率的讲，现在没有确定答案。

说到这得拉回来。因为上面这一大段听起来很像“人类完了”的叙事，但Anthropic的文章其实画了一张更细致的路线图。他们给了三种可能的未来。

第一种，趋势在某个点停下来。指数曲线其实是一根S形，快到顶了。研究判断力跟堆算力堆数据走的不是同一条曲线，可能需要全新的架构突破。或者芯片供应链、电网容量这些物理瓶颈卡住了算力的脖子。

Anthropic说这个可能性存在，但他们不太信。理由很简单，至今为止所有可测量的能力曲线都在往上走，没有一根弯下来过。

第二种，复合式的效率提升。AI研发被大规模自动化，但人继续定方向和审结果。一百人的公司能干一万人、十万人的活。知识工作和政府服务被彻底重构，但也会被威权监控、大规模影响力操纵这些黑暗应用盯上。

Anthropic说，证据指向的就是这个方向。

第三种，完全的递归自举。AI能自己设计下一代AI、训练下一代AI。进步速度不再受制于人类研究员的数量和节奏，只受制于算力边界和算法效率。

坦率的讲，读到第三种可能的时候我其实有点走神。不是因为它不重要，而是第二种可能已经够吓人、也够具体了。全递归自举是一个更远的想象态，但“一百人的公司能干十万人的活”是正在发生的事。

这里藏着另一个问题。

Anthropic用了一个计算机领域的老概念来解释这一切，阿姆达尔定律。说到底是这么回事，你把系统中的某一部分加速了，瓶颈就会转移到另一个地方。代码审查跟不上代码生成的速度，人审代码就成了新瓶颈。人的时间、注意力、判断力跟不上AI的产出速度，人本身就变成了瓶颈。

这才是真正的断层线。

不是“AI会取代人吗”这种老套的问题，而是一个更具体的追问，当“做事”几乎不要钱的时候，哪些事仍然只能由人来做。这些事的数量是在增加，还是在减少。

从Anthropic的数据看，方向不太乐观。但也没到绝望的程度。至少现在，“判断什么值得做”这件事，人仍然有话语权。

只是这个窗口有多长，坦率的讲，不知道。

Anthropic在文章后半段花了不少篇幅讨论怎么给这件事装刹车，协调性暂停、验证机制、让多个国家的前沿实验室在同一触发条件下同时停下来。单边暂停没太大用，只改变谁领先，不创造真正的决策空间。

但这一部分，说到底是政策制定者和机构的事。

对于普通读者来说，这篇文章最值得带走的东西，可能不是那些吓人的数字，不是关于递归自举的未来学推演，而是一个正在发生的、很具体的变化。

“人做事”和“人判断做什么事”，正在变成两件完全分开的事。

以前我们说一个人干活厉害，意思是手快、脑子快、经验足，从想到做的整条链路一个人能跑通。现在这条链路被拦腰切断了。想的那部分还暂时需要人，做的那部分，AI已经比你快几个数量级了。

你值不值钱，不再取决于你能做多少事。

取决于你能不能判断，什么事值得做。

← 上一篇：一名算法工程师的入党心声下一篇：AI浪潮下的组织进化：系统驱动的团队法则 →