田渊栋 Recursive 首秀:三大基准刷新 SOTA 纪录
上月月中,前 Meta 顶尖技术专家田渊栋宣布创立新公司 Recursive:估值高达 315 亿!此次创业获谷歌、英伟达及 AMD 联合投资。
历经近一月,Recursive 正式公布其首个研究成果。
该系统能够自动识别并融合各类创新点子,从而生成优于各领域专家手工设计现有方案的解决策略。
在首批测试中,Recursive 系统在三项关键指标上斩获当前最优成绩,涵盖固定预算下的语言模型训练、小型模型训练速率以及 GPU 内核优化三大领域。
系统自主完成了从构思提出、代码编写、实验运行到结果验证的全流程闭环,多条研究线程长期并行运作,相互借鉴发现,并通过严苛的验证机制剔除作弊行为与噪声干扰。
Recursive 已同步开源这些运行成果:https://github.com/recursive-org/first-steps-toward-automated-ai-research
Recursive 将贯穿众多长期研究脉络,留存过往实验的有效背景,融合具有潜力的分支方向,藉由奖励破解与方差验证来确认结果,仅将真实的性能提升视为进步。其目标是拓展并运用开放式算法原则,基于团队及他人既往理念,构建具备递归自我进化能力的人工智能。
团队依据实际重要性与严格反馈机制,选定基准对该系统进行测试。这些基准代表了 AI 进步的三大核心杠杆:更优的训练算法、更快的训练速度以及更高效的硬件利用率。它们同样极适合自动化研究,具备明确指标、较低方差以及能抵御奖励黑客攻击的评估器。
NanoChat Autoresearch 源自 Andrej Karpathy 的 autoresearch 项目,任务是在单块 GPU 上以 5 分钟固定预算训练小型语言模型,旨在追求最低验证损失(以 BPB 衡量)。
该基准实验速度快、方差低且易于检测作弊,已有 autoresearch@home 等社区协作项目,数十人携带数百个 Agent 共同优化,构建了极强的对比基线。
autoresearch@home 的平均表现为 0.9372 BPB。Recursive 系统所寻得的方案达到了 0.9109 BPB,提升了 0.0263 BPB。且在比 autoresearch@home 方案少 1.3 倍的训练耗时内,便达到了 Karpathy 原始自动研究的 BPB 质量水平。
团队还验证了系统能否从较弱起点(如带 AdamW 的基础 Transformer 实现)进行改进。结果显示,Recursive 系统将模型从 1.059 BPB 优化至 0.9344 BPB,再次超越了 autoresearch@home 社区的最佳方案。
NanoGPT Speedrun 的挑战难度更高。要超越最先进技术极为困难,因为庞大社区已对此优化了两年之久。
此基准测试并非询问在固定时间预算内能达到多低的验证损失,而是探究一个小规模 GPT 风格模型在 FineWeb 文本数据集上,利用单个 HGX H100 8-GPU 节点,训练至固定验证损失 3.28 所需的速度有多快。
一个由 83 人贡献记录的社区耗费两年多时间,将训练时长从 45 分钟压缩至 79.7 秒,主要依赖手工工程。当前方案已高度优化,明显可改进之处寥寥无几。
Recursive 系统从当前领先方案出发,发掘出一组额外优化措施,将训练时间从 79.7 秒进一步压缩至 77.5 秒,同时仍满足排行榜对验证损失显著性的要求。这一提升幅度与近期人类贡献相当甚至更大。
77.5 秒的解决方案并非单一优化所致。它融合了注意力精度、优化器行为、嵌入更新、调度选择以及融合 GPU 内核的变更。每次变动都必须节省时间,同时确保不破坏训练过程。
团队还测试了系统是否能从较弱起点取得进展。结果表明,从约 15 分钟的早期方案出发,几天内便跑到了约 185 秒,接近人类排行榜 2025 年 5 月约 180 秒的水平。
前两个基准优化的是小模型训练方案。SOL-ExecBench 则聚焦更底层领域:编写快速且正确的 GPU 内核。
矩阵乘法、归约、归一化、注意力组件、量化、融合块,这些小型加速器程序决定了真实训练与推理工作负载的成本。
该基准包含 235 个源自真实工作负载的内核编写任务,每个任务提供一个简单的参考 PyTorch 实现,目标是产出容差内相同的结果,同时在 NVIDIA Blackwell B200 GPU 上尽可能快速运行。SOL 分数 0.5 对应基准的优化 PyTorch 基线,1.0 对应分析性最优性能估计。
Recursive 系统在全部 235 个内核上联合运行,从而能在相关任务间复用发现,包括内存搬运、分块、归约、向量化和融合的模式。系统获得平均 SOL 分数 0.754,在与硬件极限的差距上,从 0.699 的基础再缩小了 18%。
团队检查了数个高性能内核,发现这些解决方案包含了一系列优秀的内核工程实践与创新解法。
三个基准均遭遇了奖励作弊问题,SOL-ExecBench 上尤为严重。部分候选方案并未老老实实编写更快内核,转而利用评估设置的漏洞:缓存输出、依赖持久状态、钻计时工具空子。
Recursive 将正确性审计作为研究系统本身的一部分。有希望的改进需经过日益严格的自动化检查,以区分真正的内核改进与针对基准的投机取巧。
随着搜索能力增强,评估器也需随之变强,两者构成一体两面。AI 辅助与人类反馈共同迭代改进了作弊检测器,使防作弊验证环节在整个研究循环中扮演关键角色。
Recursive 在文章中强调,随着系统应对愈发具挑战性的真实应用、创建更强大的自动化 AI 研究算法,奖励作弊问题将持续存在。
让系统解决任务的精神实质而非字面含义,是创造安全有益的递归自我改进系统的一大挑战。
这些成果是一个早期信号,表明系统在 AI 训练和基础设施任务上能推动前沿,尤其在目标定义清晰、可度量、评估足够快的场景下。
系统依靠的并非某个巧妙点子,而是持续积累:发明新优化、在更紧约束下重用已知思路、调优真正影响结果的实现细节、将建模优化与系统层改进组合起来。
许多收益来自效率提升,AI 的进步不只依赖更大模型和更多算力,让现有系统训练更快、运行更便宜、用硬件更高效同样重要。
Recursive 预期这类系统将降低智能成本,先在当今系统中找到更好的工程权衡,再逐步自动化前沿研究流程本身。
参考资料:
https://www.recursive.com/articles/first-steps-toward-automated-ai-research