重磅 | AI 科学家实现科研全流程自动化

发布时间：2026-04-06 17:15阅读：16

点击上方蓝字，关注我们

论文题目：Towards end-to-end automation of AI research

论文中文译名：迈向人工智能研究的端到端自动化

作者团队：Chris Lu, Cong Lu, Robert Tjarko Lange, Yutaro Yamada, Shengran Hu, Jakob Foerster, David Ha, Jeff Clune

发表期刊：Nature

发布日期：2026年3月25日

DOI编号：10.1038/s41586-026-10265-5

Abstract

科学领域的自动化一直是AI领域的一个长期愿景。尽管在科学研究的各个独立组件自动化方面取得了实质性进展，但构建一个能自主驾驭从构思到发表整个生命周期的系统一直未实现。该研究提出了端到端自动化科学流程。该研究展示了“The AI Scientist”系统，它能自主提出思路、编写代码、运行实验、绘制和分析数据、撰写完整的科学手稿，并执行自身的同行评审。其思路生成、任务执行和结果呈现的质量极高，以至于该人工智能系统生成的手稿成功通过了顶级机器学习会议研讨会的首轮同行评审（该研讨会的接受率为70%）。该系统在复杂的智能体架构中充分利用了现代基础大模型。该研究在两种设定下评估了The AI Scientist：一种是聚焦模式，使用人类提供的代码模板作为初始脚手架，针对特定主题进行研究；另一种是无模板的开放式模式，利用智能体搜索进行更广泛的科学探索。这两种设定都能产生多样化的思路，并自动对其进行测试、报告和评估。这一成就展示了人工智能在做出实质性科学贡献方面日益增长的能力，并标志着未来研究开展方式可能发生的范式转变。与任何具有深远影响力的新技术一样，它也可能带来重大风险，包括给不堪重负的评审系统增加负担，以及为科学文献增添噪音。然而，如果能够负责任地开发，此类自主系统将极大地加速科学发现的进程。

Introduction

人工智能长期以来被用于辅助科学发现，这一雄心在该领域的历史上有着深厚的根基。在大型语言模型（LLM）兴起之前，人工智能主要局限于协助完成特定且狭窄的任务，例如发现化学结构、寻找数学证明、发现新材料以及预测蛋白质的三维形状。随着近期强大且通用的基础模型的出现，人工智能的作用已经扩展到协助更广泛的研究活动中，例如，LLM现在可以帮助生成新假设、撰写文献综述以及编写实验代码。尽管在自动化单一组件方面取得了这些显著进展，但直到现在，一个能够自主完成从构思到发表整个研究生命周期的系统仍然难以触及。该研究引入了“The AI Scientist”，这是一个实现了科学过程完全端到端自动化愿景的系统流程。The AI Scientist利用现有的基础模型执行构思、文献检索、实验规划与实施、结果分析、手稿撰写和同行评审，最终生成完整的新论文。该研究将重点放在机器学习科学上，因为其实验通常完全在计算机上进行。为了解决自动大规模评估其科学产出质量的挑战，该研究创建了一个自动化评审系统（Automated Reviewer），发现其能够准确预测会议的接受决策，性能与人类评审员相当。为了在人类作者的相同评审环境下测试The AI Scientist，该研究还在会议组织者的同意下，将生成的论文提交给了国际学习表征会议（ICLR）的一个研讨会进行真实检验。

Results

该研究证实，The AI Scientist能够成功驾驭整个科学研究生命周期，其生成的论文质量足以通过顶级机器学习会议研讨会的同行评审。核心发现如下：

论文生成与发表突破：The AI Scientist生成的一篇手稿获得了平均6.33分的同行评审得分，超过了目标研讨会的平均接收阈值，证明了完全由AI生成的论文可以成功通过标准的科学同行评审过程。

自动化评审系统的可靠性：该研究开发的自动化评审系统在评估论文质量和预测会议决策方面，达到了与人类评审员相当的水平（如平衡准确率为69%）。

性能缩放与未来潜力：系统生成的论文质量与所分配的计算资源量（智能体树搜索的深度）以及底层基础模型的性能呈强正相关。这表明随着未来计算成本的降低和模型能力的提升，该系统的科研能力将得到实质性的飞跃。

局限性与失败模式分析：目前的系统尚无法持续达到顶级主会的发表标准，常见的失败模式包括生成过于简单的想法、代码实现错误、缺乏深度的方法论严谨性、图表排版重复以及产生幻觉（如捏造不准确的参考文献）。

图1：The AI Scientist工作流程。a，The AI Scientist包含自动想法生成、基于树的实验、手稿撰写和评审等不同阶段。实验阶段使用智能体树搜索来生成和完善代码实现。这分为四个阶段：(1)初步调查，(2)超参数调优，(3)研究议程执行，以及(4)消融研究。从一个实验阶段到下一个阶段，选择表现最好的检查点来作为树搜索下一阶段的种子。b，The AI Scientist论文在不同模型发布中的得分。论文质量随着底层模型发布日期的推移而持续提高（由自动化评审系统评判），表明随着基础模型的改进，未来将有持续的提升。观察到的相关性具有统计学显著性（P < 0.00001）。阴影区域代表标准误。数据点代表平均得分，误差线和阴影区域表示标准误（无模板数据点n=6，基于模板的数据点n=3）。完整的实验细节（包括模型版本和重复计数）在补充信息A.2.9节中提供。c，自动化评审与会议决策的对比。自动化评审系统达到了与人类评审员相当的性能，这通过过去会议公开可用的决策得到了验证（表1）。柱状图代表平均平衡准确率；误差线显示95%的自助法置信区间（5000次重复）。为了可重复性，每次自动化评审都是5次运行的集成。对子样本准确率进行的双样本z检验（自动化n = 698/876，人类n = 412）显示，在训练截止日期之前（P = 0.319）或截止日期之后（P = 0.921），均无显著差异。对F1分数进行的非参数自助法检验显示出自动化评审的优越性能（P < 0.001）。

图2：由The AI Scientist生成并被顶级机器学习会议研讨会通过同行评审接收的论文的选定部分。该论文在元评审前获得了6分（弱接收）、7分（接收）和6分（弱接收）的同行评审分数，并排在提交进行同行评审的论文的前45%。这表明完全由AI生成的论文可以成功通过顶级会议研讨会的同行评审过程。该论文的完整版本可在补充信息D.2.1节中找到。

图3：The AI Scientist的阶段和计算扩展。a，研究实验阶段被可视化为一个四个阶段的过程。首先构建初步的基线代码实现（阶段1），并通过调整超参数进行完善（阶段2）。生成的代码作为执行研究议程的起点，通过智能体树搜索（阶段3）进行，随后是消融实验（阶段4）。智能体树搜索过程的完整细节在方法部分提供。b，The AI Scientist进行树搜索的一个真实示例，带有概述四个不同阶段进行的实验的节点注释。c，The AI Scientist论文在不同计算预算下的得分。扩大智能体树搜索中的实验节点数量表明，更深的测试时搜索预算带来了改善。误差线代表标准误。完整的实验细节在补充信息A.2.9节中提供。

表1：人类评审员与自动化评审系统的性能比较。评估了人类评审员（NeurIPS 2021一致性实验）和自动化评审系统在知识截止日期之前（2017-2024）和之后（2025）发表的论文上的表现。自动化评审系统在F1分数、曲线下面积（AUC）和平衡准确率等关键指标上取得了优于或相当于人类评审员一致性的表现，即使对于知识截止日期之后的数据也是如此，突显了其在不同时期的稳健性和可靠性。误差幅度表示95%的自助法置信区间。箭头指示得分较高（向上）还是较低（向下）更好。补充信息A.3.2节详细解释了每个指标和比较。FNR为假阴性率；FPR为假阳性率。

Implications

该研究中The AI Scientist成功撰写出一篇通过学术研讨会同行评审的论文，标志着数百年来科学探索事业中的一个重要里程碑。这一成就深刻展示了人工智能在科学推理和自主执行方面不断跃升的能力，预示着一个新时代的曙光：在这个时代，科学发现的过程将不再仅仅是人类的专属追求，人类收获科学发现成果的速度可能会因此呈现指数级的激增。然而，实现论文生成的完全自动化也引发了极其重要的伦理和社会关切，例如这种能力可能会被滥用于向同行评审系统倾倒海量垃圾论文、人为夸大学术资历、在不注明出处的情况下剽窃他人思想，甚至开展不道德且危险的自动实验。因此，在科学界确立清晰的AI使用披露标准和伦理规范之前，负责任的预先撤稿协议和监管机制显得尤为关键，以确保此类前沿自治系统被用于推进而非侵蚀科学的严谨性与完整性。

方法总结

该研究的方法论构建于两个核心自动化系统之上：用于驱动科学探索的The AI Scientist和用于严格把控质量的自动化评审系统（The Automated Reviewer）。在研究探索方面，该系统提供了两种运行模式：第一种是基于模板的模式，系统以人类提供的基础代码为起点，通过大型语言模型迭代生成研究想法，利用学术API比对文献以保证新颖性，并依靠自动化编程助手（Aider）顺序执行实验和自动调试代码。第二种是无模板的开放式模式，系统使用高性能推理模型（如OpenAI o3）生成宏观的研究提案，并引入了“实验进度管理器”将复杂的科研过程结构化为四个有明确终止标准的阶段：初步调查、超参数调优、研究议程执行和消融研究。在这一模式下，系统部署了并行化的智能体树搜索机制，并发执行大量包含不同目的（如超参数节点、消融节点、复制节点等）的实验代码，并创造性地集成了视觉语言模型（VLM，如GPT-4o）对生成的实验图表进行自动视觉审查和反馈修正。在论文撰写与评估方面，系统自动查阅相关文献并撰写标准的LaTeX格式手稿，推理模型会将多阶段的实验结果图表聚合并配以准确的文字说明。最后，该研究开发了基于o4-mini模型的自动化评审系统，该系统严格模拟了NeurIPS会议的审稿指南，通过融合五份独立的评审意见并由AI模拟领域主席（Area Chair）给出元评审决策，从而实现了对自动生成论文的客观量化评估。

声明

本文内容仅代表个人总结，所涉及的观点、理解和分析可能与原文有所差异。若存在不同的理解或解释，以原文为准。欢迎各位读者参考原文，并根据实际情况进一步深入探讨。

关于我们

点击一次“在看”，

腾讯向此公益项目捐款0.01元👇

← 上一篇：4月6日 AI足球前瞻智能进球数下一篇：周杰伦演唱会遭质疑敷衍，巨星传奇业绩由盈转亏 →