Anthropic联创预言:AI自造AI概率60%,2028年成关键节点
新智元讯息
AI系统或许很快便能自主构建出自身!
发表此言论的是Anthropic的联合创始人Jack Clark。
5月4日,他在X平台发文称:「我认为,递归自我改进(RSI)在2028年底前发生的概率为60%。」
除了联合创始人身份,Clark还是《Import AI》的创办者兼主编,长期关注AI能力的演进。
此次发文,他在《Import AI》上同步发布了一篇详尽的分析报告。
https://importai.substack.com/p/import-ai-455-automating-ai-research
这无疑是一件大事。我不知该如何解读,也不愿接受这个观点:其影响太过深远,令我感到自身渺小,且不确定社会是否已准备好迎接自动化AI研发带来的巨变。
Clark在文中写道:若这一刻降临,人类将跨越「卢比孔河」,步入一个几近不可预测的未来。
他不认为这会发生在2026年,但预计一两年内,非前沿模型可能会出现概念验证:即一个模型能端到端训练出下一代模型。
Clark结论的依据主要来自公开资料:包括arXiv、bioRxiv、NBER上的论文,以及他对各大前沿实验室产品的持续观察,这些信息共同勾勒出AI进展的全景。
在他看来,AI工程化生产所需的所有组件已基本完备。剩余的问题是:模型何时能积累足够创造力,像人类研究员一样推动前沿发展。
Clark的核心论据是一系列能力提升曲线。
首先来看METR的时间轴图。
https://metr.org/time-horizons/
2022年,GPT-3.5的耗时为:30秒;
2023年,GPT-4将这一时间延长至4分钟;
2024年,o1的时间跨度扩展到40分钟;
2025年,GPT-5.2(高配版)耗时达到6小时;
2026年,Claude Opus 4.6耗时为12小时。
四年间,从30秒到12小时,性能提升了1440倍!
AI能力研究员Ajeya Cotra认为,2026年底前,这一数字有望突破100小时。
若达到100小时跨度,将能覆盖许多多日级的软件/研究辅助任务。
编程能力同样在飞速提升。
SWE-Bench衡量的是AI解决真实GitHub工程问题的能力。2023年底,Claude 2得分仅为2%。今年,Claude Mythos Preview得分达到93.9%,该基准基本已被突破。
CORE-Bench测试另一件事:给AI一篇论文和对应代码库,让其独立复现实验结果,这是AI研究员的基本日常工作。
2024年9月该测试推出时,最佳成绩为21.5%。2025年12月,Opus 4.5在Claude Code scaffold下验证准确率为77.78%,人工校验后为95.5%,项目方宣布CORE-Bench已被攻克。
https://hal.cs.princeton.edu/corebench_hard
15个月,从21.5%提升至95.5%。
MLE-Bench测试AI独立参加Kaggle竞赛的能力,涵盖75个真实比赛项目。
2024年10月发布时最高分16.9%,到2026年2月,Gemini 3配合搜索工具的组合得分已达64.4%。
https://github.com/openai/mle-bench
Anthropic内部还有一项测试:让模型优化仅使用CPU的小型语言模型训练代码,越快越好,以未优化版本为基准。
2025年5月,Claude Opus 4:2.9倍;
2025年11月,Opus 4.5:16.5倍;
2026年2月,Opus 4.6:30倍;
2026年4月,Claude Mythos Preview:52倍。
不到一年,从2.9倍跃升至52倍。
这是AI优化AI训练代码方面的进展速度。
这里有个关键问题:AI研究中,到底多少是纯工程,多少是真正的创意?
Clark给出了一个框架,引用爱迪生的话:天才是1%的灵感加上99%的汗水。
他认为,AI研究也是如此。
典型的AI研究循环是:拿现有系统在某个维度扩大规模,观察哪里出问题,修复工程问题,再扩大一轮。
这个过程中,大部分工作是数据清洗、跑实验、调参、读论文、复现结果,这些都是「汗水」,而非「灵感」。
偶尔会出现真正改变范式的发明,如Transformer架构或混合专家模型(MoE)。但那是1%,且这1%越来越不是瓶颈,因为那99%的工程工作正被AI快速接管。
Clark列举了几个信号:
AI已经能管理其他AI。在Claude Code、OpenCode等工具中,单个AI可扮演「项目经理」,将任务分发给多个子AI并行处理,然后汇总结果。
这与人类研究团队的组织方式没有本质区别。
PostTrainBench测试了一件事:AI能否自行微调开源小模型,提升其在某任务上的表现?
这项工作通常由前沿实验室有经验的研究员完成。
截至2026年3月,AI系统在此任务上能达到人类研究员效果的约一半,提升幅度约25%至28%,人类基线为51%。
https://posttrainbench.com/
Anthropic内部还有「自动化对齐研究」的概念验证:让一组AI代理在AI安全问题上自主攻关。
结果证明,AI提出的方案超过了Anthropic人类研究员的基线。
https://www.anthropic.com/research/automated-alignment-researchers
Clark将这些证据串联后的判断是:AI今天已能自动化大部分AI工程,AI研究中有多少能自动化尚不完全清楚,但迹象已很明显。
Clark发文后,行业内也出现了一些质疑。
华盛顿大学机器学习教授、《终极算法》作者Pedro Domingos回复道:「从50年代LISP发明以来,AI就能构建自身。问题在于,这个过程能否带来递增回报而非递减回报——目前没有证据支持前者。」
递归自我改进听起来很科幻,但能循环不等于有收益。如果每代AI优化效率只有边际改善而非指数级放大,那么影响范围将非常有限。
还有人质疑概念边界。「RSI是否有权威定义?」研究员Dan Brickley问道。
另一个更尖锐的观察来自账号@crepesupreme:
2027年30%,2028年60%。一年内概率跳升30个百分点,意味着2027到2028年之间存在某个不连续的能力事件。那个具体事件是什么?
Clark在通讯文章中回应了这一隐含问题:他认为AI研究仍需某种创意突破才能真正进入「自我研发」循环:AI目前在此方面尚无变革性表现。这解释了为何他给2027年仅30%的概率;而若这一缺口在2028年底前被填补,概率将升至60%。
但他也承认,自己预测的是概率,而非确切时间点。
还有人问他:「你在Anthropic工作,为何要翻阅公开数据?直接去问研究员不就行了吗?」
Clark的答案是:使用公开数据是因为其具有可信度。他要的不是内部判断,而是任何人都能独立验证的结论。
Clark在通讯文章中写道:为何不给2027年更高概率?
因为他认为AI研究仍包含对创意直觉的要求,而AI目前在此方面只有「诱人的早期信号」,尚未实现系统性突破。
他列举了两个信号:一是Gemini模型参与攻克Erdős数学问题,在700个问题中解出1个被数学家认为具有一定原创性的解。
另一个是斯坦福、UBC等机构与Google DeepMind合作,AI在发现新数学证明中发挥了「非常实质性的作用」。
这些结果在AI能力演化的时间轴上,可能是某种早期信号。
Clark的估计是:若2028年底未出现他描述的情况,则说明当前技术路径存在根本性的能力天花板,需人类创意突破。
更关键的是「如果出现」之后的问题。
Anthropic在2026年3月宣布成立The Anthropic Institute时,官方声明中写道:
如果AI系统的递归自我改进确实开始,那么世界上谁应被告知,这些系统该如何治理?
https://www.anthropic.com/news/the-anthropic-institute
就连Anthropic自己,也没有这个问题的完整答案。
Clark在通讯文章中给出了更技术性的担忧:若今日对齐技术准确率为99.9%,递归迭代50代后,准确率将降至95.1%;迭代500代后,降至60.5%。
除非你的对齐方案在理论上能保证在更智能的系统上同样有效,否则问题将很快出现。
也许,Clark想说的是:治理窗口有限且正在缩窄。他希望通过文章发出提醒:留给讨论、研究和治理设计的时间,比大多数人想象的要短。
据奥特曼直播及媒体报道,OpenAI的目标是让AI在2026年9月前达到「AI研究实习生」水平,2028年达到更完整的自动化研究员;Anthropic也在发表自动化对齐研究概念验证;一家名为Recursive Superintelligence的新公司刚刚完成5亿美元融资,其目标之一就是自动化AI研究。
整个行业正朝此方向加速。
Clark说,无论从哪个角度看,数据都指向同一方向,每条曲线都在向右上飞升,时间越长能力越强,且无减速迹象。