科研进展｜零编程也能让AI产出可信科研代码：贝叶斯对抗多智能体新框架

发布时间：2026-04-27 19:02阅读：20

在大语言模型的推动下，从数值仿真到数据处理，AI已开始替科研人员自动生成代码。但在真实科研场景里，领域研究者往往缺少计算机训练：写出的提示语不够精确，且夹带大量默认的专业前提；科学计算链条又长又复杂，细小疏漏就可能引起级联错误；更棘手的是，大模型会出现“幻觉”——结果表面合理，却可能埋着关键漏洞。

在多智能体协作流程中，上游的偏差很容易被下游直接采纳并不断放大。面对这类隐蔽而微妙的错误模式，现有的提示优化与自我纠错方法常常难以奏效。科学家一方面急需可靠代码，另一方面又卡在“提示词写不好”的现实困境中。这不仅拖慢了AI4S（AI for Science，科学智能）的普及，也让不少重要科学问题因为门槛过高而难以获得AI的有效助力。

为解决这些痛点，复旦大学人工智能创新与产业研究院（下称“AI³院”）、上海科学智能研究院（下称“上智院”）与上海创智学院的联合团队提出了贝叶斯对抗式多智能体框架，以不同于以往的路径应对上述难题。该方法不把希望寄托在单个模型的自省能力上，而是借助多角色分工与对抗博弈机制，让系统在持续“攻防”迭代中自然提升代码质量。

论文标题｜AI-for-Science Low-code Platform with Bayesian Adversarial Multi-Agent Framework

论文地址｜https://openreview.net/forum?id=Cug26Y0RlT

相关成果已被 ICLR 2026 接收。复旦大学AI³院与上海创智学院博士生曾子航、张家铨为共同第一作者；AI³院教授、上智院AI科学家陈曦为通讯作者；复旦大学特聘教授、AI³院院长、上智院首席科学家漆远为共同作者。

出题人vs答题人：对抗循环驱动的贝叶斯迭代机制

该框架的关键在于“出题人 vs 答题人”的对抗闭环。任务管理器（TM）作为“出题人”，持续构造更具挑战的测试样例，用来探查现有代码的能力边界；方案生成器（SG）充当“答题人”，基于测试反馈不断修订与完善代码；评估器（Eval）则作为“裁判”，对双方产出进行客观量化评分。随着循环推进，出题方会更懂得如何卡住薄弱点，答题方也会更擅长给出高质量实现。

更重要的是，框架加入了贝叶斯更新。每轮迭代结束后，系统会依据评分结果动态调整测试用例与代码方案的概率分布，把注意力集中到最值得探索的区域。直观理解就是：每一次迭代都在更聪明地挑选“最有信息量”的测试-代码组合，而非无目的地反复试错。这样一来，“试错”被升级为“带方向的探索”——系统会避开已被验证无效的路径，像有经验的研究者那样用证据逐步收敛搜索空间，最终逼近更优解。

（三种代码生成范式对比）

这一框架的首个核心贡献是：面向 AI4S 构建低代码平台，并将贝叶斯对抗式递归生成机制融入其中，从而显著增强 AI4S 项目代码生成的可靠性。相较于传统多智能体系统高度依赖大模型自身决策能力，该低代码平台引入了非大模型的对抗评分机制，从底层减少了对基础模型“聪明程度”的依赖。同时，它也让不擅长编程的领域专家只需用自然语言表达研究需求，系统就能辅助产出质量更高的科研代码。

小模型逆袭大模型：基准测试验证框架有效性

实验结果显示出明显优势：

在 SciCode 基准上，8B 模型接入该框架后相对提升 87.1%（子问题求解率由 13.2% 提升到 24.7%）；

32B 开源模型结合该框架，在 SciCode 上达到 33.0% 的求解率，超过 235B 模型的基线结果（30.6%）——出现“小模型反超大模型”的现象；

在 ScienceAgentBench 上，框架取得 90.2% 的有效执行率，刷新当前最优（SOTA）水平。

这些结果揭示了一个重要信号：只要框架设计得当，开源小模型在特定科学任务上可以追平甚至超越商业大模型，为科研团队在算力与成本控制上提供了更现实的选择。

（框架对不同提示词质量的鲁棒性）

同样值得关注的是，该框架对提示词质量表现出很强的鲁棒性。团队对比了“普通提示”与“专家精心撰写提示”两类输入：在基线方法下，性能差距显著，模型对提示质量高度敏感；而引入该框架后，两者差距被明显压缩。即便用户只给出较基础的描述，框架的结果也能明显优于“专家提示词 + 基线模型”的表现。

这也印证了第二项关键贡献：显著增强编码智能体的整体能力，并降低其对基础模型能力上限的依赖。未来，该框架有望推广到更广泛的科学计算任务中，为 AI4S 生态提供更通用、更可信的技术底座。

展望：AI4S普惠化的可行路径

在贝叶斯对抗式多智能体框架的支持下，更多领域专家将更容易借助 AI 工具高效开展研究。例如，一位海洋学研究者只需用自然语言描述问题，系统就能通过多轮对抗迭代生成更可靠的科研代码。随着这一范式进一步应用与扩散，研究者将能把主要精力放回科学问题本身，而不是被实现细节牵制，从而推动 AI 与基础科学更深入地融合。

通讯作者介绍

陈曦，复旦大学人工智能创新与产业研究院教授、博士生导师。研究方向聚焦科学智能（AI for Science）与大模型多智能体，长期探索以领域知识驱动的概率建模与AI方法，以提升算法模型在交叉学科场景中的泛化能力与可靠性。

← 上一篇：AI重构商业版图，复旦管院领创计划二期启航下一篇：AI视角复刻园林香景：千年香韵数字再现 →