田渊栋 Recursive 首秀：三大基准刷新 SOTA 纪录

发布时间：2026-06-13 07:31阅读：30

上月月中，前 Meta 顶尖技术专家田渊栋宣布创立新公司 Recursive：估值高达 315 亿！此次创业获谷歌、英伟达及 AMD 联合投资。

历经近一月，Recursive 正式公布其首个研究成果。

该系统能够自动识别并融合各类创新点子，从而生成优于各领域专家手工设计现有方案的解决策略。

在首批测试中，Recursive 系统在三项关键指标上斩获当前最优成绩，涵盖固定预算下的语言模型训练、小型模型训练速率以及 GPU 内核优化三大领域。

系统自主完成了从构思提出、代码编写、实验运行到结果验证的全流程闭环，多条研究线程长期并行运作，相互借鉴发现，并通过严苛的验证机制剔除作弊行为与噪声干扰。

Recursive 已同步开源这些运行成果：https://github.com/recursive-org/first-steps-toward-automated-ai-research

Recursive 将贯穿众多长期研究脉络，留存过往实验的有效背景，融合具有潜力的分支方向，藉由奖励破解与方差验证来确认结果，仅将真实的性能提升视为进步。其目标是拓展并运用开放式算法原则，基于团队及他人既往理念，构建具备递归自我进化能力的人工智能。

团队依据实际重要性与严格反馈机制，选定基准对该系统进行测试。这些基准代表了 AI 进步的三大核心杠杆：更优的训练算法、更快的训练速度以及更高效的硬件利用率。它们同样极适合自动化研究，具备明确指标、较低方差以及能抵御奖励黑客攻击的评估器。

NanoChat Autoresearch 源自 Andrej Karpathy 的 autoresearch 项目，任务是在单块 GPU 上以 5 分钟固定预算训练小型语言模型，旨在追求最低验证损失（以 BPB 衡量）。

该基准实验速度快、方差低且易于检测作弊，已有 autoresearch@home 等社区协作项目，数十人携带数百个 Agent 共同优化，构建了极强的对比基线。

autoresearch@home 的平均表现为 0.9372 BPB。Recursive 系统所寻得的方案达到了 0.9109 BPB，提升了 0.0263 BPB。且在比 autoresearch@home 方案少 1.3 倍的训练耗时内，便达到了 Karpathy 原始自动研究的 BPB 质量水平。

团队还验证了系统能否从较弱起点（如带 AdamW 的基础 Transformer 实现）进行改进。结果显示，Recursive 系统将模型从 1.059 BPB 优化至 0.9344 BPB，再次超越了 autoresearch@home 社区的最佳方案。

NanoGPT Speedrun 的挑战难度更高。要超越最先进技术极为困难，因为庞大社区已对此优化了两年之久。

此基准测试并非询问在固定时间预算内能达到多低的验证损失，而是探究一个小规模 GPT 风格模型在 FineWeb 文本数据集上，利用单个 HGX H100 8-GPU 节点，训练至固定验证损失 3.28 所需的速度有多快。

一个由 83 人贡献记录的社区耗费两年多时间，将训练时长从 45 分钟压缩至 79.7 秒，主要依赖手工工程。当前方案已高度优化，明显可改进之处寥寥无几。

Recursive 系统从当前领先方案出发，发掘出一组额外优化措施，将训练时间从 79.7 秒进一步压缩至 77.5 秒，同时仍满足排行榜对验证损失显著性的要求。这一提升幅度与近期人类贡献相当甚至更大。

77.5 秒的解决方案并非单一优化所致。它融合了注意力精度、优化器行为、嵌入更新、调度选择以及融合 GPU 内核的变更。每次变动都必须节省时间，同时确保不破坏训练过程。

团队还测试了系统是否能从较弱起点取得进展。结果表明，从约 15 分钟的早期方案出发，几天内便跑到了约 185 秒，接近人类排行榜 2025 年 5 月约 180 秒的水平。

前两个基准优化的是小模型训练方案。SOL-ExecBench 则聚焦更底层领域：编写快速且正确的 GPU 内核。

矩阵乘法、归约、归一化、注意力组件、量化、融合块，这些小型加速器程序决定了真实训练与推理工作负载的成本。

该基准包含 235 个源自真实工作负载的内核编写任务，每个任务提供一个简单的参考 PyTorch 实现，目标是产出容差内相同的结果，同时在 NVIDIA Blackwell B200 GPU 上尽可能快速运行。SOL 分数 0.5 对应基准的优化 PyTorch 基线，1.0 对应分析性最优性能估计。

Recursive 系统在全部 235 个内核上联合运行，从而能在相关任务间复用发现，包括内存搬运、分块、归约、向量化和融合的模式。系统获得平均 SOL 分数 0.754，在与硬件极限的差距上，从 0.699 的基础再缩小了 18%。

团队检查了数个高性能内核，发现这些解决方案包含了一系列优秀的内核工程实践与创新解法。

三个基准均遭遇了奖励作弊问题，SOL-ExecBench 上尤为严重。部分候选方案并未老老实实编写更快内核，转而利用评估设置的漏洞：缓存输出、依赖持久状态、钻计时工具空子。

Recursive 将正确性审计作为研究系统本身的一部分。有希望的改进需经过日益严格的自动化检查，以区分真正的内核改进与针对基准的投机取巧。

随着搜索能力增强，评估器也需随之变强，两者构成一体两面。AI 辅助与人类反馈共同迭代改进了作弊检测器，使防作弊验证环节在整个研究循环中扮演关键角色。

Recursive 在文章中强调，随着系统应对愈发具挑战性的真实应用、创建更强大的自动化 AI 研究算法，奖励作弊问题将持续存在。

让系统解决任务的精神实质而非字面含义，是创造安全有益的递归自我改进系统的一大挑战。

这些成果是一个早期信号，表明系统在 AI 训练和基础设施任务上能推动前沿，尤其在目标定义清晰、可度量、评估足够快的场景下。

系统依靠的并非某个巧妙点子，而是持续积累：发明新优化、在更紧约束下重用已知思路、调优真正影响结果的实现细节、将建模优化与系统层改进组合起来。

许多收益来自效率提升，AI 的进步不只依赖更大模型和更多算力，让现有系统训练更快、运行更便宜、用硬件更高效同样重要。

Recursive 预期这类系统将降低智能成本，先在当今系统中找到更好的工程权衡，再逐步自动化前沿研究流程本身。

参考资料：

https://www.recursive.com/articles/first-steps-toward-automated-ai-research

← 上一篇：广州启用AI赋能中心发布医疗AI“十百千”三年蓝图下一篇：人工智能时代，财富两极分化加剧 →