Nature：AI科学家打通机器学习研究闭环

发布时间：2026-04-20 00:06阅读：10

在机器学习领域，从构思创意、检索文献、编写代码、执行实验、绘制图表到撰写论文直至同行评议的整个研究链条，如今已被统一的智能体系统（agentic system）串联成完整闭环。Lu等研究者开发的AI科学家平台（The AI Scientist），能够在模板化约束与自由探索两种范式下自主提出研究课题、撰写调试程序、开展实验、产出学术论文，并借助自动化评审模块（Automated Reviewer）输出规范化审稿反馈。最引人注目的并非"算法能撰文"这一表象，而是该系统向ICLR 2025某专题研讨会投递的3篇作品中，有1篇斩获6、7、6的评分，均值6.33，已超越该会场的平均录取线；与此同时，其自建的评审工具在公开数据集上的均衡准确率（balanced accuracy）与人类评委的判定高度吻合。这项研究将科研自动化从分散的辅助功能升级为可全程比对、可批量测评的系统性方案，尽管现阶段仍仅适用于纯计算驱动的机器学习任务。

科学发现自动化并非新鲜命题。过去数十年间，人工智能相继应用于材料探索、蛋白质结构预测、定理证明、数据挖掘与假设生成等场景。大语言模型（large language model, LLM）普及后，文献梳理、创意拓展、代码生成与实验脚本设计正迅速实现智能化。关键在于，这些能力大多孤立存在。若要让系统真正覆盖"从问题提出到稿件提交"的完整科研周期，就必须打通创意、文献、代码、实验结果、图表、正文与评审意见之间的壁垒，使各环节无缝衔接，而非产出仍需人工拼装的碎片化内容。

该论文正是瞄准这一短板。作者不再将科研自动化视为"再开发一个写作助手"或"再优化一个编程代理"，而是要求同一架构连续完成选题、检索、实现、运行、整理、撰稿与自评。对机器学习研究而言，这种设定具备天然优势——实验可在计算环境中自动执行，研究对象、训练日志与结果图表均能直接作为后续写作与评审的输入材料。

串联全流程后，第二个挑战随即浮现。系统可批量产出大量文稿，但若缺乏可扩展的质量评估机制，研究者仍难以横向比较不同模型、算力配置与架构设计的优劣。人工逐篇审阅效率低下，无法支撑大规模试验。

为此，作者将自动评审器置于与"论文生成"同等核心的地位。它不仅作出接收或拒稿判定，还输出可靠性（soundness）、呈现质量（presentation）、贡献度（contribution）等细分指标、优势、不足、疑问、局限与伦理风险。唯有当这把标尺先在真实会议数据上完成校准，AI科学家平台产出的论文才能用于不同模型版本、搜索深度与系统架构的对照分析。

AI科学家平台涵盖四个递进阶段：创意生成、实验执行、文稿撰写与自动评审。模板版从人类提供的代码框架出发，围绕可运行的基线算法拓展研究思路；无模板版则从顶层研究提案入手，直接生成接近摘要层级的计划并自行编写初始代码。两种模式都会在构思阶段调用Semantic Scholar文献接口（Semantic Scholar API）与网页检索工具过滤重复度过高的方案，再将筛选后的方向推进至实验环节。

撰稿并非简单拼接日志。模板版通过Aider编程助手逐段填充会议论文的LaTeX模板，并依据实验日志与生成图表组织结果章节；无模板版会先汇总多轮实验数据，再借助推理模型直接生成全文，并经历多轮自省、LaTeX语法检查与图文一致性校验。评审阶段则将生成的PDF直接交由自动评审器处理，以标准审稿格式返回结构化意见。

无模板系统的精髓不在于"一次写对代码"，而在于将实验推进设计为树搜索（tree search）。作者将实验流程划分为四步：先验证可行性，再调整超参数，继而执行核心研究计划，最后开展消融实验（ablation study）。每步均设有明确的终止条件，且可在任意节点扩展新的实验分支。

每个节点涵盖高层实验方案、Python脚本、运行结果、错误日志、性能指标、图表与视觉反馈。代码报错时，系统记录错误并将节点标记为缺陷状态（buggy），随后优先启动调试分支；运行成功的节点则进入绘图与评估阶段。视觉语言模型（vision-language model, VLM）会核查图像标签、图例与图文匹配度，图表不达标同样会触发修正分支。作者还设计了复制节点、聚合节点与消融节点，使无模板系统能在不同随机种子下重复实验，并将多次结果整合为可写入论文的图表。

自动评审器采用OpenAI的o4-mini模型，对输入论文PDF依据NeurIPS审稿指南生成结构化JSON评审意见。它先执行5次独立评审，再由一个"领域主席"角色的元评审将5份意见综合为最终判定。作者利用公开的ICLR决策数据验证其与人类集体判断的接近程度，并与NeurIPS 2021一致性实验中的人类评审指标进行对比。

这一设计使本文的实验评估比"生成几篇合格文稿"更完善。作者不仅能展示系统产出，还能揭示在不同模型与算力预算下，稿件质量分数的变化趋势。对端到端科研系统而言，这种外部校准是后续所有比较的基础。

文章的证据链条可分为四层。第一层是流程层面，AI科学家平台确实将创意、实验、撰稿与自评连接成可运行的管道。第二层是评估层面，自动评审器首次实现对科研代理的大批量横向比较。第三层是扩展层面，更强的基座模型与更深的测试时计算（test-time compute）均能提升输出质量。第四层才是最受外界关注的结论：其中一篇AI生成论文确实通过了一次标准研讨会同行评审。需严格区分的是，这四层结论的证据强度并不对等，后两层尤其依赖特定会议场景与人工筛选条件。

这一判断源于系统架构与执行细节的交叉解读。Figure 1A将AI科学家平台拆解为创意生成、实验推进、论文写作与自动评审四个连续阶段；方法部分进一步阐明，模板版会围绕现有代码框架迭代思路、修改代码并记录实验日志，无模板版则先生成高层研究提案，再将文献检索、代码生成、运行、调试、绘图与撰稿全部接入同一链条。Figure 1A中最关键的信息并非阶段数量，而是前一阶段的产出能直接转化为下一阶段的输入，特别是实验日志、图表与文献检索结果可直接用于正文撰写与引用编排。

Figure 1：AI科学家平台的总体流程与两类核心性能证据。Figure 1A展示从创意生成、树搜索实验、论文写作到自动评审的完整闭环，其中实验阶段细分为可行性验证、超参数调整、核心研究计划与消融实验；Figure 1B对比不同基座模型版本对应的论文得分，显示模型发布时间越新，自动评审分数越高；Figure 1C将自动评审器的会议决策与历史会议结果对照，说明这把内部质量标尺与人类评审的一致性接近。

这表明作者已超越"某模型会写摘要"或"某模型会修代码"的层面，而是提供了一条从研究构思到可提交稿件的工作流原型。讨论时仍需明确边界。该闭环目前仅覆盖纯计算实验的机器学习任务，数据接入、子领域界定与资源范围均需人工预设，因此更接近受限环境下的科研自动化方案，距离可推广至多学科的通用科学家仍有显著差距。

自动评审器是本文最关键的方法学组件。作者使其直接读取论文PDF，按NeurIPS审稿规范输出结构化评审意见，并通过5次独立评审与1次元评审汇总最终结论。Figure 1C与Table 1给出了外部校准结果。在公开会议数据上，自动评审器的均衡准确率在知识截止前后分别为0.69与0.66，而NeurIPS 2021一致性实验中的人类评审均衡准确率为0.66；作者还报告知识截止后的F1分数仍高于人类一致性基线。

这一结果的意义在于，它将"系统批量产出了文稿"转化为"系统在不同条件下产出了可比较的文稿"。Figure 1C中自动评审与历史会议决策未出现显著差异，表明这把标尺足以承担系统内的筛选与对照。讨论层面的局限同样清晰。此处对齐的是会议录用决策，而非科学真实性本身；知识截止前后从0.69降至0.66也提示潜在的训练集污染与分布漂移问题不容忽视。因此，自动评审器目前更适宜作为系统评测工具，而非替代人类对科学价值做最终裁决。

系统输出远未达到天花板。Figure 1B显示，基座模型发布时间越新，AI科学家平台生成论文的自动评审分数越高，且该上升趋势具有统计显著性。Figure 3C进一步表明，只要为无模板版本分配更多实验节点与更深的测试时计算（test-time compute），论文得分还能持续提升。Figure 3A与Figure 3B则解释了算力为何能直接转化为质量提升：系统并非一次性写完代码，而是在四阶段树搜索中反复生成、运行、调试、复制、聚合与消融。

Figure 3：无模板系统如何将实验构建为可扩展的树搜索。Figure 3A给出四阶段实验推进框架，先验证可行性，再调超参数、执行核心研究计划，最后做消融；Figure 3B展示一次真实搜索树，节点间经历错误修复、改进、复制与聚合；Figure 3C显示实验节点数增加后，自动评审给出的论文分数同步提升，说明测试时计算能够持续改善输出质量。

作者在方法部分补充了更细粒度的运行机制。每个实验节点最长运行1小时，失败节点优先进入调试分支，成功节点则继续优化并接受图表审查；完整生成一篇无模板论文通常耗时数小时至15小时以上。该结果说明，当前瓶颈很大程度上源于搜索深度、调试频次与图表反馈循环，而非单次模型调用的智能水平。这也意味着后续系统能力将同时受基座模型与算力组织方式制约，测试时计算的扩展很可能持续带来显著收益。

最易被外界放大的证据来自人类盲审实验。作者将无模板版本对接到ICLR 2025的ICBINB工作坊主题，在获得主办方与伦理委员会批准后提交了3篇AI生成稿件。这里有一条必须保留的注脚。从入选创意到代码、实验与正文，论文内容未再经人工改动；但在投稿前，团队手动过滤了不合适的候选输出，仅保留与工作坊主题契合、代码可运行、格式规范的3篇稿件。

Figure 2：被工作坊评审打到录用线以上的AI生成论文样态。整图选取了该稿件的标题摘要页、技术方法页、数据可视化页与参考文献页，用以说明这不是只会写摘要的文本代理，而是一篇包含方法、结果图与引用结构的完整会议论文；图中给出的评审分数6、7、6与正文关于其越过工作坊录用线的判断完全对应。

Figure 2对应的稿件获得6、7、6的评审分，均值6.33，位列送审稿件前45%，高于该工作坊的平均录取线；组织者表示，若非按预设协议因"人工智能生成"而撤稿，该文极有可能被录用。这一结果足以证明系统已能穿越标准同行评审流程，但结论应止步于此。该工作坊录取率约70%，而ICLR 2025主会录取率约32%；作者团队的内部复核亦认为3篇稿件均未达到主会水准。更准确的表述是，AI已能生成可过工作坊门槛的机器学习论文，距离顶级会议主会论文仍有明确且不小的差距。

第一层限制源于场景。作者强调系统目前仅处理计算机内可自动执行的机器学习实验，距离湿实验、临床研究或需实体操作的数据采集仍很遥远。即使在纯计算领域，无模板系统的数据

← 上一篇：他山科技：突破AI触觉感知关键技术，领跑全球人形机器人市场，获数亿元A轮系列融资下一篇：探域科技推出新一代运营智能体 →