状态连续性制胜：人大AiScientist实现23小时74轮研究突破

发布时间：2026-04-20 12:13阅读：18

新智元讯

自动化科研正迅速崛起为人工智能核心赛道之一。

在机器学习领域，已有诸多系统能够参与构思生成、文献综述、定向实验、学术写作等环节。无论是从论文到代码，还是从实验到分析，AI赋能研究的范畴都在持续延展。

AiScientist的突破点，是在这些既有成果之上，进一步瞄准一个更具实践性、也更贴近真实科研场景的命题：长程ML研究工程。

在此场景下，系统并非仅完成某一孤立环节，而是要从论文或研究目标出发，连贯处理环境搭建、依赖管理、资源调用、代码实现、实验运行、结果比对、错误溯源与反复修正。这既涉及各阶段自身的技术门槛，也涵盖跨阶段持续推进时的整体性挑战。

更要紧的是，这些问题常常不会立即显现。一个初期判断的失误，可能要等到数小时后的实验结果中才浮出水面；而一旦项目状态在多轮推进中遗失，后续环节便难以判定问题究竟源于论文解读、实现细节、数据处理，还是基础配置。

中国人民大学高瓴人工智能学院此次发布的AiScientist，正是沿着这一路径，尝试将AI从「能参与若干研究步骤」进一步推升到「能持续承接研究工程全流程」。

论文地址：https://arxiv.org/pdf/2604.13018

项目仓库：https://github.com/AweAI-Team/AiScientist

AiScientist最瞩目的成果，体现在MLE-Bench Lite的Detecting Insults任务中。

在此任务上，AiScientist于23小时内自主完成了74轮实验循环，将验证集AUC从0.903拉升至0.982，期间达成18次当前最优更新。

这一成绩的价值，不仅在于分数提升了多少，更在于它展现了一条完整的研究工程链条：从解读任务、构建环境、编写实现，到执行实验、解析偏差、修复系统、再验证结果，整个过程并非一次性生成，而是持续迭代。

换言之，AiScientist试图攻克的并非「再造一个更强的编程助手」，而是让AI在真实科研流程中，逐步具备持续驱动任务的能力。

当前不少AI for Research系统，已在特定研究环节展现出强劲实力，例如生成代码、归纳文献、辅助实验设计，乃至完成整篇论文撰写。

AiScientist聚焦的是更具实验属性的场景：ML研究工程，它并非单点任务，而是一条跨阶段、长周期的连续任务链。系统需先理解论文与目标设定，再处理依赖与资源，完成实现，运行实验，并依据实验输出进行归因、修正与持续迭代。

其中每个环节，单独来看都已颇具挑战。论文可能不完整、规格模糊；环境配置与依赖下载往往琐碎且脆弱；实验反馈存在显著延迟，且错误成因常交织于实现、数据、超参与基础设施等多个层面。

研究同时指出，这一难点已在严苛评测中显现：在PaperBench这类高难度从零复现任务中，当前最佳agent仅达成约21%的复现评分，而顶尖ML博士生在48小时时限下可达41%。这表明，长程研究工程的瓶颈并非仅在于模型能否完成局部推理，而在于系统能否跨越多个阶段，维持状态连续与决策一致。

也就是说，长程ML研究工程既包含诸多高难度的局部问题，也要求将这些问题在时间轴上串联、相互校准、持续推进。真正的难点，不只是「这一轮能否推理」，而是系统能否在不同阶段间保持连贯进展。

AiScientist的核心设计思想，可凝练为一句话：薄控制层驾驭厚状态层。

在该系统中，顶层Orchestrator负责阶段级控制与任务推进，相当于一个轻量总调度器；而真正承载项目记忆的，并非一轮轮对话上下文，而是workspace中持续演进的分析、规划、代码、日志与实验记录。

换言之，AiScientist并不试图让某个Agent把所有细节都「记在脑中」，而是让不同角色围绕一个持续更新的项目状态协同工作。顶层控制保持轻量，底层状态保持厚实，系统因此能在长程任务中逐步累积，而非反复从零开始。

这也是本项研究的一个重要论断：让系统跑通长流程的关键，不只是多智能体分工本身，而在于这些分工能否建立在稳定、可继承的项目状态之上。

AiScientist将这种「项目状态」进一步落地为File-as-Bus机制。

简言之，它并非将文件视为普通附件存储，而是将文件系统本身作为长程协作的基石。论文分析、任务规划、实现代码、实验日志、错误记录与中间结果，均被持续写回workspace，成为后续阶段可重新读取与利用的持久化产物。

这意味着，系统不依赖对话中残留的几句摘要继续工作，而是能围绕真实存在的项目证据推进下一步决策。对于长程研究工程而言，这一点至关重要。因为前一阶段的某个判断，可能在数小时后才以实验异常形式暴露；若这些中间状态无法完整保留，后续阶段便难以准确归因，更无法在正确位置实施修复。

因此，AiScientist的重点不只是「让多个Agent协同作业」，而是让整个系统具备更稳定的外部记忆能力。真正需要传递的，不是某一轮的表面结论，而是项目在不同阶段逐步积累的状态本身。

在PaperBench上，AiScientist相对最强基线平均提升约10.54分。这一结果表明，它并非仅在某个独立案例上奏效，而是能在从论文复现到完整工程实现的高难度场景中，稳定拉开与现有方法的差距。

在MLE-Bench Lite上，AiScientist达成81.82%的任意奖牌率，说明它不仅擅长「先把系统跑通」，也能在更接近真实竞赛与研究迭代的场景中持续优化成果。

更关键的是，这种提升并非简单依靠「多交互几轮」堆砌而来。研究明确指出：单纯增加交互轮次并不足够。额外的轮次只有建立在先前正确积累的状态之上，才会真正转化为长程能力。否则，更多交互反而可能带来更高成本与更多噪声。

机制分析进一步印证了这一点。移除File-as-Bus后，AiScientist在PaperBench上下降6.41分，在MLE-Bench Lite上任意奖牌率下降31.82个百分点。这表明，状态连续性并非「锦上添花」的设计，而是长程研究工程中真正影响系统能否持续推进的关键要素之一。

与此同时，研究也未将File-as-Bus奉为唯一解。实验同样表明，层级化orchestration在性能提升中也发挥了重要作用。换言之，AiScientist的价值并非源自某个单一组件，而是源于orchestration与状态连续性共同支撑的系统设计。

若仅看结果，AiScientist的贡献似乎只是「分数更高」。但从研究给出的机制分析来看，这项工作的价值实则更为立体。

第一，长程ML研究工程不只是众多局部问题的叠加，它本身还是一个更难的系统性问题。论文理解、环境配置、资源下载、代码实现、实验执行、误差诊断，这些环节单独拎出来，很多都已是足够复杂的技术任务；更难的是，要将这些环节在长时间跨度里有序衔接、相互校正、持续推进。也正因为如此，决定系统成败的，不只是某一步做得好与坏，而是整个流程能否在跨阶段推进中保持一致性。

第二，AiScientist的关键，不只是采用多智能体，而是将状态连续性内化为系统能力。层级化orchestration固然重要，它帮助不同角色聚焦不同阶段；但真正让这套组织形式产生复利的，是项目状态能否以持久化产物的形式被稳定保存、读取、继承与继续利用。换言之，多智能体是组织形式，状态连续性才是这套系统真正跑通长流程的根基。

第三，File-as-Bus的价值，更多体现在后期精修，而不只是前期搭一个可运行的脚手架。从消融结果看，去掉File-as-Bus后，系统未必立刻丧失基础可运行性，但在更依赖后期优化与结果逼近的指标上，会出现更明显的退化。这意味着它真正带来的，不只是可执行性，而是保真度：让系统能在多轮诊断、修补、对齐与优化中，将每一轮试错都建立在前一轮留下的有效证据之上。

从更宏观的视角看，AiScientist指向的是一个比benchmark分数更值得关注的问题：AI能否真正融入科研流程，而不只是停留在某个局部环节。

长程ML研究工程既是众多困难局部问题的串联，也是一个更难的系统性问题。每个局部环节都足够复杂，而将这些环节衔接起来、在多轮反馈中保持一致性、让前一轮决策真正服务于后一轮推进，则更难。

AiScientist给出的一个重要启示是：未来的AI科研系统，关键不只是模型会不会推理、会不会写代码、会不会调用工具，而是能否在长时间跨度里稳定保存、继承并利用项目状态。

这也是为什么这项工作值得放在更广的AI for Research进展中来看。它探讨的不是单步能力的再增强，而是AI如何真正从「辅助某一环节」走向「承接整条流程」。

与此同时，团队也正将AiScientist从benchmark中的评测对象，逐步推进为真实可用的软件系统。换言之，这项工作不仅想回答「分数能否提升」，也想回答「AI能否真正融入实验、复现、调参与迭代的日常流程中，进一步解放实验层面的生产力」。

AiScientist试图推动的，并非只是一个更强的科研Agent，而是一种对长程研究工程的新理解：在真实科研任务中，真正重要的往往不是单次生成得多完美，而是系统能否在跨阶段、跨轮次、跨文件的任务链中，将项目状态稳定保存，并据此持续推进。

若这一点成立，那么AI进入科研流程的方式，也将从「辅助某一步」逐渐走向「承接整条链路」。

← 上一篇：零门槛AI班上线：免下载、实战教学，助你一人成军下一篇：教师迎AI大考：人工智能纳入资格认证 →