标签

Nature:AI科学家打通机器学习研究闭环

发布时间:2026-04-20 00:06来源:微信阅读:6

在机器学习领域,从构思创意、检索文献、编写代码、执行实验、绘制图表到撰写论文直至同行评议的整个研究链条,如今已被统一的智能体系统(agentic system)串联成完整闭环。Lu等研究者开发的AI科学家平台(The AI Scientist),能够在模板化约束与自由探索两种范式下自主提出研究课题、撰写调试程序、开展实验、产出学术论文,并借助自动化评审模块(Automated Reviewer)输出规范化审稿反馈。最引人注目的并非"算法能撰文"这一表象,而是该系统向ICLR 2025某专题研讨会投递的3篇作品中,有1篇斩获6、7、6的评分,均值6.33,已超越该会场的平均录取线;与此同时,其自建的评审工具在公开数据集上的均衡准确率(balanced accuracy)与人类评委的判定高度吻合。这项研究将科研自动化从分散的辅助功能升级为可全程比对、可批量测评的系统性方案,尽管现阶段仍仅适用于纯计算驱动的机器学习任务。

科学发现自动化并非新鲜命题。过去数十年间,人工智能相继应用于材料探索、蛋白质结构预测、定理证明、数据挖掘与假设生成等场景。大语言模型(large language model, LLM)普及后,文献梳理、创意拓展、代码生成与实验脚本设计正迅速实现智能化。关键在于,这些能力大多孤立存在。若要让系统真正覆盖"从问题提出到稿件提交"的完整科研周期,就必须打通创意、文献、代码、实验结果、图表、正文与评审意见之间的壁垒,使各环节无缝衔接,而非产出仍需人工拼装的碎片化内容。

该论文正是瞄准这一短板。作者不再将科研自动化视为"再开发一个写作助手"或"再优化一个编程代理",而是要求同一架构连续完成选题、检索、实现、运行、整理、撰稿与自评。对机器学习研究而言,这种设定具备天然优势——实验可在计算环境中自动执行,研究对象、训练日志与结果图表均能直接作为后续写作与评审的输入材料。

串联全流程后,第二个挑战随即浮现。系统可批量产出大量文稿,但若缺乏可扩展的质量评估机制,研究者仍难以横向比较不同模型、算力配置与架构设计的优劣。人工逐篇审阅效率低下,无法支撑大规模试验。

为此,作者将自动评审器置于与"论文生成"同等核心的地位。它不仅作出接收或拒稿判定,还输出可靠性(soundness)、呈现质量(presentation)、贡献度(contribution)等细分指标、优势、不足、疑问、局限与伦理风险。唯有当这把标尺先在真实会议数据上完成校准,AI科学家平台产出的论文才能用于不同模型版本、搜索深度与系统架构的对照分析。

AI科学家平台涵盖四个递进阶段:创意生成、实验执行、文稿撰写与自动评审。模板版从人类提供的代码框架出发,围绕可运行的基线算法拓展研究思路;无模板版则从顶层研究提案入手,直接生成接近摘要层级的计划并自行编写初始代码。两种模式都会在构思阶段调用Semantic Scholar文献接口(Semantic Scholar API)与网页检索工具过滤重复度过高的方案,再将筛选后的方向推进至实验环节。

撰稿并非简单拼接日志。模板版通过Aider编程助手逐段填充会议论文的LaTeX模板,并依据实验日志与生成图表组织结果章节;无模板版会先汇总多轮实验数据,再借助推理模型直接生成全文,并经历多轮自省、LaTeX语法检查与图文一致性校验。评审阶段则将生成的PDF直接交由自动评审器处理,以标准审稿格式返回结构化意见。

无模板系统的精髓不在于"一次写对代码",而在于将实验推进设计为树搜索(tree search)。作者将实验流程划分为四步:先验证可行性,再调整超参数,继而执行核心研究计划,最后开展消融实验(ablation study)。每步均设有明确的终止条件,且可在任意节点扩展新的实验分支。

每个节点涵盖高层实验方案、Python脚本、运行结果、错误日志、性能指标、图表与视觉反馈。代码报错时,系统记录错误并将节点标记为缺陷状态(buggy),随后优先启动调试分支;运行成功的节点则进入绘图与评估阶段。视觉语言模型(vision-language model, VLM)会核查图像标签、图例与图文匹配度,图表不达标同样会触发修正分支。作者还设计了复制节点、聚合节点与消融节点,使无模板系统能在不同随机种子下重复实验,并将多次结果整合为可写入论文的图表。

自动评审器采用OpenAI的o4-mini模型,对输入论文PDF依据NeurIPS审稿指南生成结构化JSON评审意见。它先执行5次独立评审,再由一个"领域主席"角色的元评审将5份意见综合为最终判定。作者利用公开的ICLR决策数据验证其与人类集体判断的接近程度,并与NeurIPS 2021一致性实验中的人类评审指标进行对比。

这一设计使本文的实验评估比"生成几篇合格文稿"更完善。作者不仅能展示系统产出,还能揭示在不同模型与算力预算下,稿件质量分数的变化趋势。对端到端科研系统而言,这种外部校准是后续所有比较的基础。

文章的证据链条可分为四层。第一层是流程层面,AI科学家平台确实将创意、实验、撰稿与自评连接成可运行的管道。第二层是评估层面,自动评审器首次实现对科研代理的大批量横向比较。第三层是扩展层面,更强的基座模型与更深的测试时计算(test-time compute)均能提升输出质量。第四层才是最受外界关注的结论:其中一篇AI生成论文确实通过了一次标准研讨会同行评审。需严格区分的是,这四层结论的证据强度并不对等,后两层尤其依赖特定会议场景与人工筛选条件。

这一判断源于系统架构与执行细节的交叉解读。Figure 1A将AI科学家平台拆解为创意生成、实验推进、论文写作与自动评审四个连续阶段;方法部分进一步阐明,模板版会围绕现有代码框架迭代思路、修改代码并记录实验日志,无模板版则先生成高层研究提案,再将文献检索、代码生成、运行、调试、绘图与撰稿全部接入同一链条。Figure 1A中最关键的信息并非阶段数量,而是前一阶段的产出能直接转化为下一阶段的输入,特别是实验日志、图表与文献检索结果可直接用于正文撰写与引用编排。

Figure 1:AI科学家平台的总体流程与两类核心性能证据。Figure 1A展示从创意生成、树搜索实验、论文写作到自动评审的完整闭环,其中实验阶段细分为可行性验证、超参数调整、核心研究计划与消融实验;Figure 1B对比不同基座模型版本对应的论文得分,显示模型发布时间越新,自动评审分数越高;Figure 1C将自动评审器的会议决策与历史会议结果对照,说明这把内部质量标尺与人类评审的一致性接近。

这表明作者已超越"某模型会写摘要"或"某模型会修代码"的层面,而是提供了一条从研究构思到可提交稿件的工作流原型。讨论时仍需明确边界。该闭环目前仅覆盖纯计算实验的机器学习任务,数据接入、子领域界定与资源范围均需人工预设,因此更接近受限环境下的科研自动化方案,距离可推广至多学科的通用科学家仍有显著差距。

自动评审器是本文最关键的方法学组件。作者使其直接读取论文PDF,按NeurIPS审稿规范输出结构化评审意见,并通过5次独立评审与1次元评审汇总最终结论。Figure 1C与Table 1给出了外部校准结果。在公开会议数据上,自动评审器的均衡准确率在知识截止前后分别为0.69与0.66,而NeurIPS 2021一致性实验中的人类评审均衡准确率为0.66;作者还报告知识截止后的F1分数仍高于人类一致性基线。

这一结果的意义在于,它将"系统批量产出了文稿"转化为"系统在不同条件下产出了可比较的文稿"。Figure 1C中自动评审与历史会议决策未出现显著差异,表明这把标尺足以承担系统内的筛选与对照。讨论层面的局限同样清晰。此处对齐的是会议录用决策,而非科学真实性本身;知识截止前后从0.69降至0.66也提示潜在的训练集污染与分布漂移问题不容忽视。因此,自动评审器目前更适宜作为系统评测工具,而非替代人类对科学价值做最终裁决。

系统输出远未达到天花板。Figure 1B显示,基座模型发布时间越新,AI科学家平台生成论文的自动评审分数越高,且该上升趋势具有统计显著性。Figure 3C进一步表明,只要为无模板版本分配更多实验节点与更深的测试时计算(test-time compute),论文得分还能持续提升。Figure 3A与Figure 3B则解释了算力为何能直接转化为质量提升:系统并非一次性写完代码,而是在四阶段树搜索中反复生成、运行、调试、复制、聚合与消融。

Figure 3:无模板系统如何将实验构建为可扩展的树搜索。Figure 3A给出四阶段实验推进框架,先验证可行性,再调超参数、执行核心研究计划,最后做消融;Figure 3B展示一次真实搜索树,节点间经历错误修复、改进、复制与聚合;Figure 3C显示实验节点数增加后,自动评审给出的论文分数同步提升,说明测试时计算能够持续改善输出质量。

作者在方法部分补充了更细粒度的运行机制。每个实验节点最长运行1小时,失败节点优先进入调试分支,成功节点则继续优化并接受图表审查;完整生成一篇无模板论文通常耗时数小时至15小时以上。该结果说明,当前瓶颈很大程度上源于搜索深度、调试频次与图表反馈循环,而非单次模型调用的智能水平。这也意味着后续系统能力将同时受基座模型与算力组织方式制约,测试时计算的扩展很可能持续带来显著收益。

最易被外界放大的证据来自人类盲审实验。作者将无模板版本对接到ICLR 2025的ICBINB工作坊主题,在获得主办方与伦理委员会批准后提交了3篇AI生成稿件。这里有一条必须保留的注脚。从入选创意到代码、实验与正文,论文内容未再经人工改动;但在投稿前,团队手动过滤了不合适的候选输出,仅保留与工作坊主题契合、代码可运行、格式规范的3篇稿件。

Figure 2:被工作坊评审打到录用线以上的AI生成论文样态。整图选取了该稿件的标题摘要页、技术方法页、数据可视化页与参考文献页,用以说明这不是只会写摘要的文本代理,而是一篇包含方法、结果图与引用结构的完整会议论文;图中给出的评审分数6、7、6与正文关于其越过工作坊录用线的判断完全对应。

Figure 2对应的稿件获得6、7、6的评审分,均值6.33,位列送审稿件前45%,高于该工作坊的平均录取线;组织者表示,若非按预设协议因"人工智能生成"而撤稿,该文极有可能被录用。这一结果足以证明系统已能穿越标准同行评审流程,但结论应止步于此。该工作坊录取率约70%,而ICLR 2025主会录取率约32%;作者团队的内部复核亦认为3篇稿件均未达到主会水准。更准确的表述是,AI已能生成可过工作坊门槛的机器学习论文,距离顶级会议主会论文仍有明确且不小的差距。

第一层限制源于场景。作者强调系统目前仅处理计算机内可自动执行的机器学习实验,距离湿实验、临床研究或需实体操作的数据采集仍很遥远。即使在纯计算领域,无模板系统的数据