科研进展|零编程也能让AI产出可信科研代码:贝叶斯对抗多智能体新框架
在大语言模型的推动下,从数值仿真到数据处理,AI已开始替科研人员自动生成代码。但在真实科研场景里,领域研究者往往缺少计算机训练:写出的提示语不够精确,且夹带大量默认的专业前提;科学计算链条又长又复杂,细小疏漏就可能引起级联错误;更棘手的是,大模型会出现“幻觉”——结果表面合理,却可能埋着关键漏洞。
在多智能体协作流程中,上游的偏差很容易被下游直接采纳并不断放大。面对这类隐蔽而微妙的错误模式,现有的提示优化与自我纠错方法常常难以奏效。科学家一方面急需可靠代码,另一方面又卡在“提示词写不好”的现实困境中。这不仅拖慢了AI4S(AI for Science,科学智能)的普及,也让不少重要科学问题因为门槛过高而难以获得AI的有效助力。
为解决这些痛点,复旦大学人工智能创新与产业研究院(下称“AI³院”)、上海科学智能研究院(下称“上智院”)与上海创智学院的联合团队提出了贝叶斯对抗式多智能体框架,以不同于以往的路径应对上述难题。该方法不把希望寄托在单个模型的自省能力上,而是借助多角色分工与对抗博弈机制,让系统在持续“攻防”迭代中自然提升代码质量。
论文标题|AI-for-Science Low-code Platform with Bayesian Adversarial Multi-Agent Framework
论文地址|https://openreview.net/forum?id=Cug26Y0RlT
相关成果已被 ICLR 2026 接收。复旦大学AI³院与上海创智学院博士生曾子航、张家铨为共同第一作者;AI³院教授、上智院AI科学家陈曦为通讯作者;复旦大学特聘教授、AI³院院长、上智院首席科学家漆远为共同作者。
出题人vs答题人:对抗循环驱动的贝叶斯迭代机制
该框架的关键在于“出题人 vs 答题人”的对抗闭环。任务管理器(TM)作为“出题人”,持续构造更具挑战的测试样例,用来探查现有代码的能力边界;方案生成器(SG)充当“答题人”,基于测试反馈不断修订与完善代码;评估器(Eval)则作为“裁判”,对双方产出进行客观量化评分。随着循环推进,出题方会更懂得如何卡住薄弱点,答题方也会更擅长给出高质量实现。
更重要的是,框架加入了贝叶斯更新。每轮迭代结束后,系统会依据评分结果动态调整测试用例与代码方案的概率分布,把注意力集中到最值得探索的区域。直观理解就是:每一次迭代都在更聪明地挑选“最有信息量”的测试-代码组合,而非无目的地反复试错。这样一来,“试错”被升级为“带方向的探索”——系统会避开已被验证无效的路径,像有经验的研究者那样用证据逐步收敛搜索空间,最终逼近更优解。
(三种代码生成范式对比)
这一框架的首个核心贡献是:面向 AI4S 构建低代码平台,并将贝叶斯对抗式递归生成机制融入其中,从而显著增强 AI4S 项目代码生成的可靠性。相较于传统多智能体系统高度依赖大模型自身决策能力,该低代码平台引入了非大模型的对抗评分机制,从底层减少了对基础模型“聪明程度”的依赖。同时,它也让不擅长编程的领域专家只需用自然语言表达研究需求,系统就能辅助产出质量更高的科研代码。
小模型逆袭大模型:基准测试验证框架有效性
实验结果显示出明显优势:
在 SciCode 基准上,8B 模型接入该框架后相对提升 87.1%(子问题求解率由 13.2% 提升到 24.7%);
32B 开源模型结合该框架,在 SciCode 上达到 33.0% 的求解率,超过 235B 模型的基线结果(30.6%)——出现“小模型反超大模型”的现象;
在 ScienceAgentBench 上,框架取得 90.2% 的有效执行率,刷新当前最优(SOTA)水平。
这些结果揭示了一个重要信号:只要框架设计得当,开源小模型在特定科学任务上可以追平甚至超越商业大模型,为科研团队在算力与成本控制上提供了更现实的选择。
(框架对不同提示词质量的鲁棒性)
同样值得关注的是,该框架对提示词质量表现出很强的鲁棒性。团队对比了“普通提示”与“专家精心撰写提示”两类输入:在基线方法下,性能差距显著,模型对提示质量高度敏感;而引入该框架后,两者差距被明显压缩。即便用户只给出较基础的描述,框架的结果也能明显优于“专家提示词 + 基线模型”的表现。
这也印证了第二项关键贡献:显著增强编码智能体的整体能力,并降低其对基础模型能力上限的依赖。未来,该框架有望推广到更广泛的科学计算任务中,为 AI4S 生态提供更通用、更可信的技术底座。
展望:AI4S普惠化的可行路径
在贝叶斯对抗式多智能体框架的支持下,更多领域专家将更容易借助 AI 工具高效开展研究。例如,一位海洋学研究者只需用自然语言描述问题,系统就能通过多轮对抗迭代生成更可靠的科研代码。随着这一范式进一步应用与扩散,研究者将能把主要精力放回科学问题本身,而不是被实现细节牵制,从而推动 AI 与基础科学更深入地融合。
通讯作者介绍
陈曦,复旦大学人工智能创新与产业研究院教授、博士生导师。研究方向聚焦科学智能(AI for Science)与大模型多智能体,长期探索以领域知识驱动的概率建模与AI方法,以提升算法模型在交叉学科场景中的泛化能力与可靠性。