标签

AI参与研发的进程超预期加速

发布时间:2026-06-10 04:30来源:微信阅读:2

「执行」的成本趋近于零,「决策」成为核心价值

爱迪生名言中99%的汗水正被机器接管

近日,Anthropic旗下的研究机构Anthropic Institute发布了一份报告。

内容并非关于模型性能提升或新纪录,而是其内部正在发生的转变。

AI在AI研发中的参与度日益加深。

这种参与不是简单的代码辅助,而是编写大量代码、独立实验、做出研究决策级别的深度介入。

文中提到一组数据,截至2026年5月,Anthropic代码库中超过80%的代码由Claude生成。注意,这80%的作者字段直接标注为Claude。

这个比例在2025年2月,即Claude Code发布前,还只是个位数。

说实话,看到这里我只有一个感受。

这个变化比预想中来得更快。

不仅是代码数量增加。Anthropic统计了工程师每日合并到代码库的代码行数。2021至2024年基本持平,2025年Claude开始运行代码后开始上升,到2026年第二季度,直接增长至2024年的8倍。

8倍。

Anthropic也承认,代码行数是粗略指标,8倍可能高估了实际效率。但他们对130名研究员的调查显示,使用Mythos Preview后,个人产出中位数约为原来的4倍。

还有一个更直观的数据。内部有项标准化测试,要求Claude在不改变正确性的前提下优化训练代码速度。去年5月,Claude Opus 4实现了约3倍加速。今年4月,Mythos Preview实现了52倍加速。

一个熟练研究员完成相同任务通常需要4到8小时才能实现4倍加速。

注意,这不仅仅是“AI比人快一点”,而是“人需要半天完成的事,AI实现了数量级上的超越”。而且这个差距扩大的速度本身也在加快。

Anthropic还公开了一个更完整的实验。让Claude独立完成一个AI安全研究项目,研究弱模型是否能可靠监督强模型。两个人类研究员花了一周时间,将天花板和地板之间的差距缩小了约23%。而Claude仅用800小时计算时间和18000美元算力,就完成了97%的进度。

23%与97%。一周工作量与一键运行的对比。

写到这里你可能会觉得,这不过是“AI很能写代码”的老生常谈。但Anthropic这篇文章真正值得深思的,不是性能数据。

而是人的角色正在发生怎样的变化。

文章引用了一位员工的描述,现在的工作模式是“人提出想法,模型来实现、测试、评估”,效率比过去高了几个数量级。同一位员工还说,人的比较优势仍在于“看到更大的图景”。

将这句话放在整篇文章的语境中读,有一种难以言喻的紧迫感。

因为Anthropic还做了另一个实验,专门测试“判断力”这件事。他们回顾了今年1月到3月研究员的129个真实工作会话,找出那些人类做出“绕路”决策的时刻,然后将这些记录喂给Claude,问它接下来会如何选择。

让另一个独立的Claude来判断,谁的选择更优。

结果去年11月的Claude Opus 4.5,在51%的情况下选择优于人。今年4月的Mythos Preview,64%。

64%虽不碾压,但这种趋势性变化不容忽视,“知道什么值得做”、“看到更大的图景”这原本是人类最后的护城河。

如果这条护城河也在被逐步填平…

还剩下什么?

Anthropic的原话是这么说的:“执行,写代码、跑实验、产出结果,现在几乎不消耗任何人类时间了,虽然在算力上仍然有成本。”

试想一下,在一个前沿AI实验室里,“做”的成本降到了趋近于零。

那人不做事了,人干嘛?

文章里另一位工程师说了一段让人愣住的话。他说大概有5个月没自己写过一行代码了。在好的日子里,会觉得很难受,所有事情都被自动完成了,自己做那点东西好像毫无意义。在坏的日子里,一切都在崩,而他突然发现,“我已经完全不知道自己在干什么了”。

这不是制造焦虑。这是在一线干活的人真实的体感。当你的手离开方向盘足够久,某天车打滑的时候你发现,自己已经不会握方向了。

一种新的分工正在快速形成。

人负责选方向、做判断、拍板“这个值得做”“那个是死胡同”。AI负责把剩下的一切跑完。

但这个分工稳不稳,没人知道。

Anthropic自己也承认了这种不安。文章里有一句写得相当坦诚,如果研究品味和判断力,本身也只是AI暂时做不到、以后能做到的另一项能力呢。

他们引用了爱迪生那句老话,天才是一分灵感加九十九分汗水。汗水正在被自动化。那一分灵感,到底是人类独有的,还是只是还没被攻克的下一道题。

这个问题,坦率的讲,现在没有确定答案。

说到这得拉回来。因为上面这一大段听起来很像“人类完了”的叙事,但Anthropic的文章其实画了一张更细致的路线图。他们给了三种可能的未来。

第一种,趋势在某个点停下来。指数曲线其实是一根S形,快到顶了。研究判断力跟堆算力堆数据走的不是同一条曲线,可能需要全新的架构突破。或者芯片供应链、电网容量这些物理瓶颈卡住了算力的脖子。

Anthropic说这个可能性存在,但他们不太信。理由很简单,至今为止所有可测量的能力曲线都在往上走,没有一根弯下来过。

第二种,复合式的效率提升。AI研发被大规模自动化,但人继续定方向和审结果。一百人的公司能干一万人、十万人的活。知识工作和政府服务被彻底重构,但也会被威权监控、大规模影响力操纵这些黑暗应用盯上。

Anthropic说,证据指向的就是这个方向。

第三种,完全的递归自举。AI能自己设计下一代AI、训练下一代AI。进步速度不再受制于人类研究员的数量和节奏,只受制于算力边界和算法效率。

坦率的讲,读到第三种可能的时候我其实有点走神。不是因为它不重要,而是第二种可能已经够吓人、也够具体了。全递归自举是一个更远的想象态,但“一百人的公司能干十万人的活”是正在发生的事。

这里藏着另一个问题。

Anthropic用了一个计算机领域的老概念来解释这一切,阿姆达尔定律。说到底是这么回事,你把系统中的某一部分加速了,瓶颈就会转移到另一个地方。代码审查跟不上代码生成的速度,人审代码就成了新瓶颈。人的时间、注意力、判断力跟不上AI的产出速度,人本身就变成了瓶颈。

这才是真正的断层线。

不是“AI会取代人吗”这种老套的问题,而是一个更具体的追问,当“做事”几乎不要钱的时候,哪些事仍然只能由人来做。这些事的数量是在增加,还是在减少。

从Anthropic的数据看,方向不太乐观。但也没到绝望的程度。至少现在,“判断什么值得做”这件事,人仍然有话语权。

只是这个窗口有多长,坦率的讲,不知道。

Anthropic在文章后半段花了不少篇幅讨论怎么给这件事装刹车,协调性暂停、验证机制、让多个国家的前沿实验室在同一触发条件下同时停下来。单边暂停没太大用,只改变谁领先,不创造真正的决策空间。

但这一部分,说到底是政策制定者和机构的事。

对于普通读者来说,这篇文章最值得带走的东西,可能不是那些吓人的数字,不是关于递归自举的未来学推演,而是一个正在发生的、很具体的变化。

“人做事”和“人判断做什么事”,正在变成两件完全分开的事。

以前我们说一个人干活厉害,意思是手快、脑子快、经验足,从想到做的整条链路一个人能跑通。现在这条链路被拦腰切断了。想的那部分还暂时需要人,做的那部分,AI已经比你快几个数量级了。

你值不值钱,不再取决于你能做多少事。

取决于你能不能判断,什么事值得做。