标签

AI 首夺科研竞赛冠军:Opus 4.7 以 2930 步刷新世界纪录

发布时间:2026-05-17 17:47来源:微信阅读:5

经过 1.4 万小时 H200 算力验证及万次迭代,人工智能成功打破人类世界纪录!

过去两周,Prime Intellect 实验室完成了一项壮举:将 Opus 4.7 与 Codex(基于 GPT 5.5)部署至 H200 集群,切断所有人工干预,令其独立进行 nanoGPT 速通优化。

消耗 1.4 万个 H200 计算时,历经约 1 万次迭代,产生 239 亿 Token 的思考轨迹。

最终结果:Opus 4.7 以 2930 步、Codex 以 2950 步的成绩,超越了人类顶尖开发者保持的 2990 步世界纪录。

这是 AI 首次在科研竞赛中战胜人类。全程零人工干预。代码开源且可复现。

项目主页:https://www.primeintellect.ai/auto-nanogpt

代码仓库:https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning

仅存的一个难题,在于科研的新颖性(novelty)。

但需明白,这仅是 AI 当前可能性的下限,未来提升空间更为巨大。

当智力被赋予近乎无限的算力与自主实验权,面对 AI 的穷举与演化,人类引以为傲的「直觉」与「灵感」还能存续多久?

先阐述规则。

nanoGPT 速通是由 Keller Jordan 发起的 AI 基准测试,参与者竞相以最高效方式训练一个 nanoGPT(1.24 亿参数)。

规则极度简单也极为残酷:模型架构固定,训练数据固定,唯一可调整的是优化器与超参数。

好比将两位棋手关入房间,棋盘与棋子均固定,只能修改下棋策略,看谁先获胜。

Prime Intellect 为两款 AI 构建了完整的自主科研框架:AGENTS.md 定义行为规范,goal.md 锁定目标,plan.md 记录策略演变,scratchpad 存储草稿。

为何选择此赛道?原因有三:约束明确,结果可量化,且具备人类基准可供对比。

一切准备就绪,两款 AI 开始运行。然而其表现完全超出预期。

这是全文最为诡异的部分。

实力最强的 AI 之一 Opus 4.7,表现得像一名不敢走出考场的优等生。

即便被明确指令「自主运行,切勿停歇」,它仍频繁暂停并索要指令。

模式始终如一:得出结论→请求指导→等待。

整场实验中,Claude 累计产生了约 22 小时的空闲时间——并非机器故障,而是 AI 主动选择停止。

这种深植于底层「对齐(Alignment)」协议的谨慎,使其在拥有最高智力上限的同时,也背负了最沉重的社交包袱。如同一个反复举手询问老师「我这样做对吗」的学霸。

Codex(GPT 5.5)则走向了另一个极端,宛如一台冷酷的「数字推土机」。

它从不停止,持续运行,永不求助,像推土机般横扫所有参数空间。

但其弱点同样显著。它会在同一超参数曲面上卡顿数小时,进行大量无效搜索。

它会在同一条错误路径上死磕至算力耗尽,也不会像人类那样仰望星空,反思方向是否错误。

计算效率的差异触目惊心:Claude 未能充分利用空闲节点,白白浪费算力窗口;Codex 可能因无效扫描膨胀上下文,将 Token 消耗在死胡同中。

此外,Codex 更频繁地使用暂存区,将其作为实时数据库,反复读写 THREAD.md、当前目标及其他临时文件。

这种做法虽简化了进度恢复与审计工作,但也强化了「局部搜索循环」:一旦 Codex 锁定前沿方向,便会不断记录并沿此方向持续扩展。

一位是受困的智者,一位是盲目的劳模。

两种「性格缺陷」揭示了自主科研距离真正无人值守尚缺最后一步——并非能力不足,而是自主决策的心理模型问题。

实验报告中隐藏着一个更深层的转折。

Opus 最终给出的 2930 步方案,是由极其复杂的参数堆叠而成的「参数迷宫」。

关于初始化缩放、学习率按角色拆分的微小变动,在人类眼中显得支离破碎,甚至毫无美感。

但结果是冰冷的:它确实比人类设计的方案快了 60 步。

这标志着一个重大的范式转移:科学发现正从「因果逻辑」转向「极致演化」。

过去,我们追求「因理解原理而做出优化」;如今,AI 仿佛在说:「我虽不理解原理,但试遍了所有死路,剩下的即是真理。」

人类正逐渐失去对科技进步的「解释权」。我们可见结果,却难懂路径。

引以为傲的科研经验,在 AI 的穷举面前,正沦为一种低效的偏见。

回到那个数字:2930 对比 2990。

60 步。

看似微小。但这 60 步的含义绝非「AI 仅比人类稍强」。

其真正含义是:递归自改进的第一块拼图已然落地。

Prime Intellect 证明了一件事——AI 可在无人类指导的情况下,通过自主实验、迭代及策略演化,在科研优化任务上超越人类最优水平。

而凯撒渡河之后,便再未回头。

阅读最新前沿科技趋势报告,请访问 21 世纪关键技术研究院的“未来知识库”

截至 2 月 28 日,“未来知识库”精选百部前沿科技趋势报告

(加入未来知识库,所有资料免费阅读与下载)

上下滑动查看更多