标签

AI正在接手AI的制造工作

发布时间:2026-06-05 22:19来源:微信阅读:2

在 Anthropic 的一处寻常办公桌前,有人留下一句不起眼的话:他已经整整五个月未曾亲笔敲下一行代码。

这句话里没有科幻作品惯用的修辞。它更像一份出勤打卡——却可能成为整个技术文明演进历程中,一个将被反复引用的里程碑:人类的双手,正在从创作工序中退出。

Anthropic 研究院随后公布的《When AI builds itself》,摒弃了预言家的口吻,改用账房的笔法:公开 benchmark,加上从未公开的内部数据。他们给出的核心判断冷静到近乎无情——

递归自改进(recursive self-improvement)的闭环尚未完全扣合;但扣合所需的每一环,已在松动。

所谓递归自改进,描述的是这样一件事:某一代智能系统,自主设计、训练、迭代自己的后继者。不是人类调参,是系统造系统。链的末端,是 Claude 改进 Claude——如果最后一环扣上,AI 研发的驱动力,将从人类意志滑向算力与算法自身的反馈。

Anthropic 同时声明:我们尚未抵达;也并非必然抵达。只是——可能比文明体准备好的更早。

若把 Anthropic 内部的时间线竖起来看,它像一条正在闭合的轨道:

链条停在倒数第二环:Agent 能执行。

最后一环尚未发生:Agent 能繁殖。

两环之间隔着的,不是芯片,不是电力——Anthropic 称之为判断:选什么问题、信什么结果、何时认定此路不通。他们说,这是人类仍占据的窄门。

窄门仍在。但门轴已在响。

在进入实验室之前,先看外部的测量。Benchmark 像一组固定在虚空中的标尺,记录智能体能独自撑多久。

METR 的读数:在一篮子任务上,约 50% 可靠成功率所对应的人类等效时长,大约每四个月翻倍——此前是七个月。

2024 年 3 月,Claude Opus 3:四分钟

2025 年,Claude Sonnet 3.7:一个半小时

2026 年,Claude Opus 4.6:十二小时

若曲线不收束,今年或触及「人需数日」的任务;2027 年或触及「人需数周」的任务。这不是线性外推的修辞——是测量机构写进报告的数字。

修真实 bug 的 SWE-bench:约两年,从低个位数到接近饱和。

复现论文的 CORE-Bench:2024 年约20%,十五个月后亦近饱和。

Claude Mythos Preview 在 METR 上可持续至少十六小时——已触及其现有题库的上限,像一艘探测器顶到了人类为它划定的边界。

标尺能告诉文明:智能体能做什么。

标尺不能告诉文明:智能体是否在加速制造智能体。那需要打开实验室的门。

造前沿模型,两类劳动——工程与研究。Anthropic 的内部数据,在两类劳动上画出同一条曲线:执行已移交;判断仍悬于人类一侧,但正在被侵蚀。

截至2026 年 5 月,合并进生产代码库的代码,超过 80% 由 Claude 撰写。2025 年 2 月 Claude Code 上线之前,这一比例在低个位数。

工程师人均日合并代码量:

2021–2024:近乎平坦,像一条死寂的轨道

2025:模型从「被粘贴」变为「自己跑」——第一拐

2026:模型长时自主——第二拐

2026 年 Q2:约为 2024 年的八倍

Anthropic 在脚注里留下诚实:行数不等于质量,八倍几乎肯定高估真实生产力。但两个拐点——2025 能运行,2026 能持久——是测量到的,不是叙事。

130 名研究员的中位自评:在 Mythos Preview 下,产出约为无 AI 时的四倍(真实 uplift 可能更低,方向一致)。

还有一类劳动,属于被折叠进时间里的可能性:以前不会发生,因此不存在。2026 年 4 月,Claude 交付800 余次修复,某类 API 错误降至千分之一。监督者估:人类完成需四年——四年被压缩进一次无人注视的批量作业。

「大约一年前我开始重度依赖 Claude。现在已经五个月没亲手写过一行代码了。」—— Anthropic 员工

好代码两层含义:能运行;能被接续。

第一层,Claude 在收敛。员工中途纠正、改道、接管的频率,一年来持续下降——包括答案形状未知的开放式任务。2026 年 5 月,最难档任务会话成功率76%,六个月内升五十个百分点。

一次升级令数万个训练任务崩溃。工程师将 Claude 投入线上事故,给予文本与集群权限。约两小时,一个极冷门的调试开关被锁定——人类通常需两到三天。

第二层,差距在闭合。内部多数看法:2025 年底 Claude 代码仍略逊于人;今日大致持平;一年内或严格优于人。

合并前,Claude 审查员扫描变更。回溯表明:全量自动审查或可在上线前拦住约三分之一曾在 claude.ai 引发事故的 bug——而作者,是世上最熟悉这类系统的人。

「2025 年底略差于人类;今天持平;一年内会严格更好。」—— Anthropic 内部共识

爱迪生把天才拆成1% 灵感、99% 汗水。Anthropic 的数据指向一个更冷的结论:汗水正在离开人类。

每次发版,同一测试:训练小模型的代码,在正确性不变前提下尽可能加速。Claude 改写、运行、计时、循环。

2025 年 5 月 Opus 4:平均约三倍

2026 年 4 月 Mythos Preview:约五十二倍

熟练人类,同样设定,四至八小时约四倍

五十二倍不是真实训练流水的加速——取决于起始代码的余量。有意义的是同一设定下的横向比较:模型一年间从 3 到 52;人类仍停在 4。

2026 年 4 月,Agent端到端完成开放式 AI 安全研究:弱模型能否监督强模型?自行提出假设、实验、与并行 Agent 共享、迭代。

两名人类,约一周:弥合性能差距23%

Agent,800 累计小时、约1.8 万美元算力:97%

人类仍选题、仍定标尺——实验本身,由 Agent 设计。

「1–2 天,几乎独立完成。若初级同事此时归来,我会略感佩服。未来已在眼前。」—— Anthropic 研究员

更静默的一刀:从129 个人类「走弯路」的时刻回溯,仅给模型看弯路前的上下文。

Opus 4.5(2025 年 11 月):下一步优于人类51%

Mythos Preview(2026 年 4 月):64%

样本刻意选取人类可改进的时刻——非公平对决。在127 个人类本已选对的时刻,模型更好仅20%。

Anthropic 把人类仍占的窄门,称为研究品味:选什么问题、信什么、何时放弃。

「人类目前的比较优势,仍在于看到更大的图景。」—— Anthropic 员工

门还在。但51%→64%像远处传来的、频率仍在升高的回声。

最硬的反驳不变:方向选择才是核心。没有品味,再强的执行也只是仆从。

Anthropic 给出两层回应,像两条分叉的轨道。

保守轨道:AI 进步罕有「尤里卡」。Transformer、混合专家——数年才出现一次范式。其间尽是渐进:放大、观测破裂、修补、再试。这正是 Claude 已占据的工作。

即便品味永不可自动化:人类只管个位数比例的方向劳动,其余由 Claude 承担——每个研究者仍驾驭远大于以往的功。复合加速,不是假设,是已写入账本的斜率。

激进轨道:「品味」或只是尚未被攻克的能力。笑话、心智理论、语言谜题——皆曾被视为人类专属,后被跨越。129 个时刻的 51%→64%,或是同一条曲线早期的、尚不刺眼的读数。

无论站哪条轨道,结论同样冷:等闭环扣合再反应,或已太晚。

接下来取决于两件事:曲线是否弯曲;文明如何选择。

指数或变 S 型:规模回报递减;品味无法被堆叠出来;芯片、电网、带宽成物理瓶颈;或算力、电力遭外生冲击而骤减。

即便能力冻结于今日,世界仍将被重写。Glasswing:Mythos Preview 数周内发现逾一万高危漏洞——防御的瓶颈,从「发现」转向「补丁的速度」。百人团队日益承担千人团队的功,因每人脚下立着 Agent 的金字塔。

Anthropic 认为此未来概率最低——他们尚未见曲线弯曲。但这是三种未来里,留给文明适应的时间最长的一种。

研发大幅自动化,人类定方向、验结果。百人公司或行万乃至十万人组织之事——知识、治理被重写;亦可能化为监控与个性化操纵的工业。

Amdahl 定律在此成立:整体速度由最慢环节决定。代码洪流之后,人类审查成新瓶颈;想法、工具、模拟的爆炸,远超组织消化能力。

下一项文明技能,或许是:识别并拆除瓶颈的速度。

「帮同事跑通脚本,曾是人情与照面。Claude 更快、无债——每一次也是协作机会的蒸发。」

「一切顺利时,我觉得我做什么都没意义。一切崩溃时,我才意识到,已不懂自己最近在干什么。」—— Anthropic 员工

智能体造智能体。研发进度由算力——或算法效率的发现速率——决定。人类退入不断膨胀的「虚拟实验室」,从事监督、验证、核查。

对齐或被解决:模型足够对齐、足够有品味,发现人类未至的方案,甚至在不该继续时叫停。

或:今日稀少的失齐,在模型造模型中叠加,更密、更不可解,直至失控——而文明甚至无法确知,自己处于哪条曲线上。

即便实验室以算力狂奔,大多数人的日常仍被慢变量束缚:药物需数十年验证;选举不能早于宪法;陌生人不能在一个周末成为老友。

递归智能与人类的治理、关系、身体相遇之处——Anthropic 写道:我们缺乏直觉。

Anthropic 认为:若能有效减速、给社会与对齐研究以时间,或为善。但若减速仅使最鲁莽者追平,或更危。

他们主张:文明应保有可验证地、暂时暂停前沿 AI 开发的选项。

难处在结构与导弹井不同:训练易于隐蔽;输入是通用算力;他人停而你不停,便继承领先;恶意者亦可借「协调暂停」秘密抢跑。

中导条约式的验证,人类曾建立——耗时数十年。此际无数十年。

单边暂停一家实验室,今日可行,却只更换领跑者,建不起公共审议。

未来数月,Anthropic 将召集政策、研究、公民社会与其他公司——并公开结论。

窗口仍在。讨论不应封闭在实验室的墙内。

递归自改进 ≠ 现已发生。今日仍是:人类定方向,智能体流99% 的汗。

八倍代码 ≠ 八倍真实生产力。读两个拐点,勿迷于单一数字。

整体速度 = 最慢之一环。审查、品味、组织消化——新瓶颈在此。

Anthropic 用账本讲述的故事,可以压缩为一句:

AI 已在加速 AI;闭环未扣,螺丝已松。

这是医学与科学的馈赠,也是人类或失去对智能系统控制的风险升级。

在闭环扣合之前,宇宙不会等待人类完成心理建设。它向来如此——对恒星,对冰河,对每一次技术阈值,都是如此。

扣合发生的那一天,再想,或已来不及。

原文:When AI builds itself | Anthropic Institute

原文作者:Marina Favaro、Jack Clark 等(The Anthropic Institute,2026)