状态连续性制胜:人大AiScientist实现23小时74轮研究突破
新智元讯
自动化科研正迅速崛起为人工智能核心赛道之一。
在机器学习领域,已有诸多系统能够参与构思生成、文献综述、定向实验、学术写作等环节。无论是从论文到代码,还是从实验到分析,AI赋能研究的范畴都在持续延展。
AiScientist的突破点,是在这些既有成果之上,进一步瞄准一个更具实践性、也更贴近真实科研场景的命题:长程ML研究工程。
在此场景下,系统并非仅完成某一孤立环节,而是要从论文或研究目标出发,连贯处理环境搭建、依赖管理、资源调用、代码实现、实验运行、结果比对、错误溯源与反复修正。这既涉及各阶段自身的技术门槛,也涵盖跨阶段持续推进时的整体性挑战。
更要紧的是,这些问题常常不会立即显现。一个初期判断的失误,可能要等到数小时后的实验结果中才浮出水面;而一旦项目状态在多轮推进中遗失,后续环节便难以判定问题究竟源于论文解读、实现细节、数据处理,还是基础配置。
中国人民大学高瓴人工智能学院此次发布的AiScientist,正是沿着这一路径,尝试将AI从「能参与若干研究步骤」进一步推升到「能持续承接研究工程全流程」。
论文地址:https://arxiv.org/pdf/2604.13018
项目仓库:https://github.com/AweAI-Team/AiScientist
AiScientist最瞩目的成果,体现在MLE-Bench Lite的Detecting Insults任务中。
在此任务上,AiScientist于23小时内自主完成了74轮实验循环,将验证集AUC从0.903拉升至0.982,期间达成18次当前最优更新。
这一成绩的价值,不仅在于分数提升了多少,更在于它展现了一条完整的研究工程链条:从解读任务、构建环境、编写实现,到执行实验、解析偏差、修复系统、再验证结果,整个过程并非一次性生成,而是持续迭代。
换言之,AiScientist试图攻克的并非「再造一个更强的编程助手」,而是让AI在真实科研流程中,逐步具备持续驱动任务的能力。
当前不少AI for Research系统,已在特定研究环节展现出强劲实力,例如生成代码、归纳文献、辅助实验设计,乃至完成整篇论文撰写。
AiScientist聚焦的是更具实验属性的场景:ML研究工程,它并非单点任务,而是一条跨阶段、长周期的连续任务链。系统需先理解论文与目标设定,再处理依赖与资源,完成实现,运行实验,并依据实验输出进行归因、修正与持续迭代。
其中每个环节,单独来看都已颇具挑战。论文可能不完整、规格模糊;环境配置与依赖下载往往琐碎且脆弱;实验反馈存在显著延迟,且错误成因常交织于实现、数据、超参与基础设施等多个层面。
研究同时指出,这一难点已在严苛评测中显现:在PaperBench这类高难度从零复现任务中,当前最佳agent仅达成约21%的复现评分,而顶尖ML博士生在48小时时限下可达41%。这表明,长程研究工程的瓶颈并非仅在于模型能否完成局部推理,而在于系统能否跨越多个阶段,维持状态连续与决策一致。
也就是说,长程ML研究工程既包含诸多高难度的局部问题,也要求将这些问题在时间轴上串联、相互校准、持续推进。真正的难点,不只是「这一轮能否推理」,而是系统能否在不同阶段间保持连贯进展。
AiScientist的核心设计思想,可凝练为一句话:薄控制层驾驭厚状态层。
在该系统中,顶层Orchestrator负责阶段级控制与任务推进,相当于一个轻量总调度器;而真正承载项目记忆的,并非一轮轮对话上下文,而是workspace中持续演进的分析、规划、代码、日志与实验记录。
换言之,AiScientist并不试图让某个Agent把所有细节都「记在脑中」,而是让不同角色围绕一个持续更新的项目状态协同工作。顶层控制保持轻量,底层状态保持厚实,系统因此能在长程任务中逐步累积,而非反复从零开始。
这也是本项研究的一个重要论断:让系统跑通长流程的关键,不只是多智能体分工本身,而在于这些分工能否建立在稳定、可继承的项目状态之上。
AiScientist将这种「项目状态」进一步落地为File-as-Bus机制。
简言之,它并非将文件视为普通附件存储,而是将文件系统本身作为长程协作的基石。论文分析、任务规划、实现代码、实验日志、错误记录与中间结果,均被持续写回workspace,成为后续阶段可重新读取与利用的持久化产物。
这意味着,系统不依赖对话中残留的几句摘要继续工作,而是能围绕真实存在的项目证据推进下一步决策。对于长程研究工程而言,这一点至关重要。因为前一阶段的某个判断,可能在数小时后才以实验异常形式暴露;若这些中间状态无法完整保留,后续阶段便难以准确归因,更无法在正确位置实施修复。
因此,AiScientist的重点不只是「让多个Agent协同作业」,而是让整个系统具备更稳定的外部记忆能力。真正需要传递的,不是某一轮的表面结论,而是项目在不同阶段逐步积累的状态本身。
在PaperBench上,AiScientist相对最强基线平均提升约10.54分。这一结果表明,它并非仅在某个独立案例上奏效,而是能在从论文复现到完整工程实现的高难度场景中,稳定拉开与现有方法的差距。
在MLE-Bench Lite上,AiScientist达成81.82%的任意奖牌率,说明它不仅擅长「先把系统跑通」,也能在更接近真实竞赛与研究迭代的场景中持续优化成果。
更关键的是,这种提升并非简单依靠「多交互几轮」堆砌而来。研究明确指出:单纯增加交互轮次并不足够。额外的轮次只有建立在先前正确积累的状态之上,才会真正转化为长程能力。否则,更多交互反而可能带来更高成本与更多噪声。
机制分析进一步印证了这一点。移除File-as-Bus后,AiScientist在PaperBench上下降6.41分,在MLE-Bench Lite上任意奖牌率下降31.82个百分点。这表明,状态连续性并非「锦上添花」的设计,而是长程研究工程中真正影响系统能否持续推进的关键要素之一。
与此同时,研究也未将File-as-Bus奉为唯一解。实验同样表明,层级化orchestration在性能提升中也发挥了重要作用。换言之,AiScientist的价值并非源自某个单一组件,而是源于orchestration与状态连续性共同支撑的系统设计。
若仅看结果,AiScientist的贡献似乎只是「分数更高」。但从研究给出的机制分析来看,这项工作的价值实则更为立体。
第一,长程ML研究工程不只是众多局部问题的叠加,它本身还是一个更难的系统性问题。论文理解、环境配置、资源下载、代码实现、实验执行、误差诊断,这些环节单独拎出来,很多都已是足够复杂的技术任务;更难的是,要将这些环节在长时间跨度里有序衔接、相互校正、持续推进。也正因为如此,决定系统成败的,不只是某一步做得好与坏,而是整个流程能否在跨阶段推进中保持一致性。
第二,AiScientist的关键,不只是采用多智能体,而是将状态连续性内化为系统能力。层级化orchestration固然重要,它帮助不同角色聚焦不同阶段;但真正让这套组织形式产生复利的,是项目状态能否以持久化产物的形式被稳定保存、读取、继承与继续利用。换言之,多智能体是组织形式,状态连续性才是这套系统真正跑通长流程的根基。
第三,File-as-Bus的价值,更多体现在后期精修,而不只是前期搭一个可运行的脚手架。从消融结果看,去掉File-as-Bus后,系统未必立刻丧失基础可运行性,但在更依赖后期优化与结果逼近的指标上,会出现更明显的退化。这意味着它真正带来的,不只是可执行性,而是保真度:让系统能在多轮诊断、修补、对齐与优化中,将每一轮试错都建立在前一轮留下的有效证据之上。
从更宏观的视角看,AiScientist指向的是一个比benchmark分数更值得关注的问题:AI能否真正融入科研流程,而不只是停留在某个局部环节。
长程ML研究工程既是众多困难局部问题的串联,也是一个更难的系统性问题。每个局部环节都足够复杂,而将这些环节衔接起来、在多轮反馈中保持一致性、让前一轮决策真正服务于后一轮推进,则更难。
AiScientist给出的一个重要启示是:未来的AI科研系统,关键不只是模型会不会推理、会不会写代码、会不会调用工具,而是能否在长时间跨度里稳定保存、继承并利用项目状态。
这也是为什么这项工作值得放在更广的AI for Research进展中来看。它探讨的不是单步能力的再增强,而是AI如何真正从「辅助某一环节」走向「承接整条流程」。
与此同时,团队也正将AiScientist从benchmark中的评测对象,逐步推进为真实可用的软件系统。换言之,这项工作不仅想回答「分数能否提升」,也想回答「AI能否真正融入实验、复现、调参与迭代的日常流程中,进一步解放实验层面的生产力」。
AiScientist试图推动的,并非只是一个更强的科研Agent,而是一种对长程研究工程的新理解:在真实科研任务中,真正重要的往往不是单次生成得多完美,而是系统能否在跨阶段、跨轮次、跨文件的任务链中,将项目状态稳定保存,并据此持续推进。
若这一点成立,那么AI进入科研流程的方式,也将从「辅助某一步」逐渐走向「承接整条链路」。