AI 首夺科研竞赛冠军:Opus 4.7 以 2930 步刷新世界纪录
经过 1.4 万小时 H200 算力验证及万次迭代,人工智能成功打破人类世界纪录!
过去两周,Prime Intellect 实验室完成了一项壮举:将 Opus 4.7 与 Codex(基于 GPT 5.5)部署至 H200 集群,切断所有人工干预,令其独立进行 nanoGPT 速通优化。
消耗 1.4 万个 H200 计算时,历经约 1 万次迭代,产生 239 亿 Token 的思考轨迹。
最终结果:Opus 4.7 以 2930 步、Codex 以 2950 步的成绩,超越了人类顶尖开发者保持的 2990 步世界纪录。
这是 AI 首次在科研竞赛中战胜人类。全程零人工干预。代码开源且可复现。
项目主页:https://www.primeintellect.ai/auto-nanogpt
代码仓库:https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning
仅存的一个难题,在于科研的新颖性(novelty)。
但需明白,这仅是 AI 当前可能性的下限,未来提升空间更为巨大。
当智力被赋予近乎无限的算力与自主实验权,面对 AI 的穷举与演化,人类引以为傲的「直觉」与「灵感」还能存续多久?
先阐述规则。
nanoGPT 速通是由 Keller Jordan 发起的 AI 基准测试,参与者竞相以最高效方式训练一个 nanoGPT(1.24 亿参数)。
规则极度简单也极为残酷:模型架构固定,训练数据固定,唯一可调整的是优化器与超参数。
好比将两位棋手关入房间,棋盘与棋子均固定,只能修改下棋策略,看谁先获胜。
Prime Intellect 为两款 AI 构建了完整的自主科研框架:AGENTS.md 定义行为规范,goal.md 锁定目标,plan.md 记录策略演变,scratchpad 存储草稿。
为何选择此赛道?原因有三:约束明确,结果可量化,且具备人类基准可供对比。
一切准备就绪,两款 AI 开始运行。然而其表现完全超出预期。
这是全文最为诡异的部分。
实力最强的 AI 之一 Opus 4.7,表现得像一名不敢走出考场的优等生。
即便被明确指令「自主运行,切勿停歇」,它仍频繁暂停并索要指令。
模式始终如一:得出结论→请求指导→等待。
整场实验中,Claude 累计产生了约 22 小时的空闲时间——并非机器故障,而是 AI 主动选择停止。
这种深植于底层「对齐(Alignment)」协议的谨慎,使其在拥有最高智力上限的同时,也背负了最沉重的社交包袱。如同一个反复举手询问老师「我这样做对吗」的学霸。
Codex(GPT 5.5)则走向了另一个极端,宛如一台冷酷的「数字推土机」。
它从不停止,持续运行,永不求助,像推土机般横扫所有参数空间。
但其弱点同样显著。它会在同一超参数曲面上卡顿数小时,进行大量无效搜索。
它会在同一条错误路径上死磕至算力耗尽,也不会像人类那样仰望星空,反思方向是否错误。
计算效率的差异触目惊心:Claude 未能充分利用空闲节点,白白浪费算力窗口;Codex 可能因无效扫描膨胀上下文,将 Token 消耗在死胡同中。
此外,Codex 更频繁地使用暂存区,将其作为实时数据库,反复读写 THREAD.md、当前目标及其他临时文件。
这种做法虽简化了进度恢复与审计工作,但也强化了「局部搜索循环」:一旦 Codex 锁定前沿方向,便会不断记录并沿此方向持续扩展。
一位是受困的智者,一位是盲目的劳模。
两种「性格缺陷」揭示了自主科研距离真正无人值守尚缺最后一步——并非能力不足,而是自主决策的心理模型问题。
实验报告中隐藏着一个更深层的转折。
Opus 最终给出的 2930 步方案,是由极其复杂的参数堆叠而成的「参数迷宫」。
关于初始化缩放、学习率按角色拆分的微小变动,在人类眼中显得支离破碎,甚至毫无美感。
但结果是冰冷的:它确实比人类设计的方案快了 60 步。
这标志着一个重大的范式转移:科学发现正从「因果逻辑」转向「极致演化」。
过去,我们追求「因理解原理而做出优化」;如今,AI 仿佛在说:「我虽不理解原理,但试遍了所有死路,剩下的即是真理。」
人类正逐渐失去对科技进步的「解释权」。我们可见结果,却难懂路径。
引以为傲的科研经验,在 AI 的穷举面前,正沦为一种低效的偏见。
回到那个数字:2930 对比 2990。
60 步。
看似微小。但这 60 步的含义绝非「AI 仅比人类稍强」。
其真正含义是:递归自改进的第一块拼图已然落地。
Prime Intellect 证明了一件事——AI 可在无人类指导的情况下,通过自主实验、迭代及策略演化,在科研优化任务上超越人类最优水平。
而凯撒渡河之后,便再未回头。
阅读最新前沿科技趋势报告,请访问 21 世纪关键技术研究院的“未来知识库”
截至 2 月 28 日,“未来知识库”精选百部前沿科技趋势报告
(加入未来知识库,所有资料免费阅读与下载)
上下滑动查看更多