Nature重磅：首个端到端自动化科研系统The AI Scientist问世

发布时间：2026-04-11 20:35阅读：41

点击上方蓝字，关注我们

论文信息

题目

Towards end-to-end automation of AI research

期刊

Nature

发表时间

2025

作者

Chris Lu (牛津大学), Cong Lu (不列颠哥伦比亚大学), Robert Tjarko Lange (牛津大学), Yutaro Yamada (Sakana AI), Shengran Hu (不列颠哥伦比亚大学), Jakob Foerster (牛津大学), David Ha (Sakana AI), Jeff Clune† (不列颠哥伦比亚大学)

文章链接

https://www.nature.com/articles/s41586-026-10265-5

开源代码链接

https://github.com/SakanaAI/AI-Scientist

数据集链接

http://mattmahoney.net/dc/textdata.html

https://github.com/kohpangwei/group_DRO

摘要

本文介绍了一套名为 The AI Scientist 的智能体系统，旨在自主完成机器学习科研的全过程。该系统以大型基础模型为核心，能够独立完成从构思、文献检索、代码编写、实验执行、结果分析到论文撰写及同行评审的闭环。研究团队还构建了 The Automated Reviewer，其判断准确度与人类审稿人相当。最终，由该系统生成的论文在 ICLR 2025 工作坊的评审中获得通过，成为首篇通过正式学术评审的 AI 论文，标志着科研自动化进入新阶段。

背景和动机

尽管 AI 辅助科研并非新鲜事，但在大语言模型（LLM）兴起之前，AI 多局限于单一任务。随着基础模型能力提升，LLM 开始辅助撰写综述、生成假设，但'从构想到发表'的全自动化仍是空白。作者指出，瓶颈不在于单一任务，而在于如何将各环节串联为可扩展、可评估的闭环系统。本文验证了端到端自动化科研的可行性。

核心创新点

本研究实现了从想法生成、实验执行、论文撰写到同行评审的完整自动化闭环，且生成论文通过了顶会工作坊评审。无模板版（AI Scientist-v2）引入并行化四阶段 agentic 树搜索，克服了对人工代码模板的依赖。自动化审稿系统（The Automated Reviewer）基于集成五评+元审制度，在 ICLR 数据集上验证了其与人类审稿人判断的高度吻合（balanced accuracy 69% vs. 人类 66%）。

提出的方法

The AI Scientist 由负责生成成果的 AI Scientist 和负责评估质量的 The Automated Reviewer 组成。前者分模板版与无模板版，后者通过集成多轮评审输出决策。整个流程分为想法生成、实验执行、论文撰写与自动审稿四个阶段，通过结构化日志与最优节点传递衔接。

想法生成与新颖性过滤

系统首先以'雄心勃勃的 AI 博士生'身份，在指定领域内迭代生成想法存档库。每个想法包含标题、假设、计划及自评分数。随后通过 Semantic Scholar API 进行文献相似度检索，自动剔除与已有文献高度重叠的方向。模板版基于初始代码模板推进；无模板版则从抽象提案出发，通过文献检索识别知识空白。

四阶段智能体树搜索实验执行

无模板版引入并行化四阶段 agentic 树搜索框架。四个阶段依次为：初步调研、超参数调优、研究议程执行、消融研究。每个阶段独立运行树搜索，实验节点由 Claude Sonnet 4 生成代码并执行。失败的节点被标记为 buggy 并调试，成功节点进入绘图与 VLM 视觉质检。此外，系统设计了超参数节点、消融节点、复现节点与聚合节点。

论文撰写与The Automated Reviewer

系统将结果聚合为图表，由 OpenAI o1 生成 LaTeX 格式论文，并经多轮语法检查与 VLM 图文对齐精修。无模板版耗时通常为数小时至 15 小时。The Automated Reviewer 基于 NeurIPS 指南进行五轮独立评审，由'责任编委' LLM 汇总元审意见，给出接受/拒绝决定及详细打分。

案例研究

本研究通过两条主线评估系统能力：一是使用 The Automated Reviewer 在 ICLR 数据集上标定精度；二是将 AI Scientist 无模板版生成的论文投稿至 ICLR 2025 ICBINB 工作坊。数据集涵盖 nanoGPT 的语言建模基准及 Waterbirds、CelebA 等数据集。

在自动审稿精度验证方面，The Automated Reviewer 在 ICLR 知识截止前数据上取得 balanced accuracy 为 0.69，在截止日期后数据集上仍维持 0.66，与人类审稿人组间一致性（0.66）持平。F1 分数方面，自动审稿器（0.62）显著优于人类评审者组间一致性（0.49）。

在论文质量随基础模型演进的趋势分析方面，研究发现生成论文质量随基础模型发布时间推进而持续提升，且相关性高度显著（P < 0.00001，R² = 0.517）。

在真实同行评审验证方面，在获得 ICLR 组委会及 IRB 伦理审批的前提下，向 ICLR 2025 ICBINB 工作坊提交了三篇 AI Scientist 无模板版生成的论文。最终一篇论文获得 6.33 的平均分，超越工作坊接受线，成为有记录以来首篇通过顶级学术会议工作坊同行评审的全 AI 生成论文。

计算资源方面，实验表明论文质量与分配给每篇论文的实验节点数量存在显著正相关。

结论

本研究构建并验证了首个端到端科研自动化系统 The AI Scientist。研究表明，AI 系统具备初步的科研推理与执行能力，且随着基础模型和测试时计算量的增长，系统输出质量可持续提升。尽管当前系统仅在计算实验领域运作，但这一里程碑标志着科研不再是人类的专属活动，自动化科研工具有望加速科学发现进程。

启发

The AI Scientist 的成功开启了科研自动化的大门，但也留下了若干开放问题：如何将流水线延伸至化学、生物等物理实验领域？如何控制幻觉与可信度？以及如何建立针对 AI 生成论文的披露与评估准则？

图/文：刘媛媛

审核：江肖禹

点击左下方蓝字，阅读原文

往期回顾

【AAAI-25】如何让大语言模型回答变得更可信？：SMART 四智能体分阶段知识推理框架

【IEEE T-RO】无人车和无人机在自主探索任务中如何分工？基于 UAV 广域鸟瞰先验与 UGV 层次化探索的大规模未知环境自主探索框架

【IEEE TNNLS】用元学习来解多模态预测：基于模态感知注意力与自适应元任务的工业软测量

【IEEE T-CYB】大模型如何用于工业场景？以机制嵌入与智能体协同为双核的 IFMsys 三层架构

【IEEE TSMC】数据不出厂就真安全吗？：工业联邦学习中的信息泄露评估与隐私防护框架

【IEEE TSMC】传感器采样快慢不一，如何实现过程故障检测？：全结构多采样率自回归动态潜变量监测框架

【ASOC】复杂工业过程的'时空相连'：图孪生慢特征驱动的时空表征学习方法

← 上一篇：当AI异化为时代邪教下一篇：莫拉维克悖论揭秘：AI难以企及的人类能力 →