AI 首夺科研竞赛冠军：Opus 4.7 以 2930 步刷新世界纪录

发布时间：2026-05-17 17:47阅读：12

经过 1.4 万小时 H200 算力验证及万次迭代，人工智能成功打破人类世界纪录！

过去两周，Prime Intellect 实验室完成了一项壮举：将 Opus 4.7 与 Codex（基于 GPT 5.5）部署至 H200 集群，切断所有人工干预，令其独立进行 nanoGPT 速通优化。

消耗 1.4 万个 H200 计算时，历经约 1 万次迭代，产生 239 亿 Token 的思考轨迹。

最终结果：Opus 4.7 以 2930 步、Codex 以 2950 步的成绩，超越了人类顶尖开发者保持的 2990 步世界纪录。

这是 AI 首次在科研竞赛中战胜人类。全程零人工干预。代码开源且可复现。

项目主页：https://www.primeintellect.ai/auto-nanogpt

代码仓库：https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning

仅存的一个难题，在于科研的新颖性（novelty）。

但需明白，这仅是 AI 当前可能性的下限，未来提升空间更为巨大。

当智力被赋予近乎无限的算力与自主实验权，面对 AI 的穷举与演化，人类引以为傲的「直觉」与「灵感」还能存续多久？

先阐述规则。

nanoGPT 速通是由 Keller Jordan 发起的 AI 基准测试，参与者竞相以最高效方式训练一个 nanoGPT（1.24 亿参数）。

规则极度简单也极为残酷：模型架构固定，训练数据固定，唯一可调整的是优化器与超参数。

好比将两位棋手关入房间，棋盘与棋子均固定，只能修改下棋策略，看谁先获胜。

Prime Intellect 为两款 AI 构建了完整的自主科研框架：AGENTS.md 定义行为规范，goal.md 锁定目标，plan.md 记录策略演变，scratchpad 存储草稿。

为何选择此赛道？原因有三：约束明确，结果可量化，且具备人类基准可供对比。

一切准备就绪，两款 AI 开始运行。然而其表现完全超出预期。

这是全文最为诡异的部分。

实力最强的 AI 之一 Opus 4.7，表现得像一名不敢走出考场的优等生。

即便被明确指令「自主运行，切勿停歇」，它仍频繁暂停并索要指令。

模式始终如一：得出结论→请求指导→等待。

整场实验中，Claude 累计产生了约 22 小时的空闲时间——并非机器故障，而是 AI 主动选择停止。

这种深植于底层「对齐（Alignment）」协议的谨慎，使其在拥有最高智力上限的同时，也背负了最沉重的社交包袱。如同一个反复举手询问老师「我这样做对吗」的学霸。

Codex（GPT 5.5）则走向了另一个极端，宛如一台冷酷的「数字推土机」。

它从不停止，持续运行，永不求助，像推土机般横扫所有参数空间。

但其弱点同样显著。它会在同一超参数曲面上卡顿数小时，进行大量无效搜索。

它会在同一条错误路径上死磕至算力耗尽，也不会像人类那样仰望星空，反思方向是否错误。

计算效率的差异触目惊心：Claude 未能充分利用空闲节点，白白浪费算力窗口；Codex 可能因无效扫描膨胀上下文，将 Token 消耗在死胡同中。

此外，Codex 更频繁地使用暂存区，将其作为实时数据库，反复读写 THREAD.md、当前目标及其他临时文件。

这种做法虽简化了进度恢复与审计工作，但也强化了「局部搜索循环」：一旦 Codex 锁定前沿方向，便会不断记录并沿此方向持续扩展。

一位是受困的智者，一位是盲目的劳模。

两种「性格缺陷」揭示了自主科研距离真正无人值守尚缺最后一步——并非能力不足，而是自主决策的心理模型问题。

实验报告中隐藏着一个更深层的转折。

Opus 最终给出的 2930 步方案，是由极其复杂的参数堆叠而成的「参数迷宫」。

关于初始化缩放、学习率按角色拆分的微小变动，在人类眼中显得支离破碎，甚至毫无美感。

但结果是冰冷的：它确实比人类设计的方案快了 60 步。

这标志着一个重大的范式转移：科学发现正从「因果逻辑」转向「极致演化」。

过去，我们追求「因理解原理而做出优化」；如今，AI 仿佛在说：「我虽不理解原理，但试遍了所有死路，剩下的即是真理。」

人类正逐渐失去对科技进步的「解释权」。我们可见结果，却难懂路径。

引以为傲的科研经验，在 AI 的穷举面前，正沦为一种低效的偏见。

回到那个数字：2930 对比 2990。

60 步。

看似微小。但这 60 步的含义绝非「AI 仅比人类稍强」。

其真正含义是：递归自改进的第一块拼图已然落地。

Prime Intellect 证明了一件事——AI 可在无人类指导的情况下，通过自主实验、迭代及策略演化，在科研优化任务上超越人类最优水平。

而凯撒渡河之后，便再未回头。

阅读最新前沿科技趋势报告，请访问 21 世纪关键技术研究院的“未来知识库”

截至 2 月 28 日，“未来知识库”精选百部前沿科技趋势报告

（加入未来知识库，所有资料免费阅读与下载）