AI for Science的决胜之道：多模型协同编排能力

发布时间：2026-05-20 16:12阅读：22

当业界纷纷追逐「更强大的模型」时，真正的领跑者已经在布局「更高效的协作」。

当全球 AI for Science 领域还在较量「谁的模型性能更优」时，真正稀缺的战略资源已悄然转移——

核心已不再是模型本身，而是如何让不同代际、不同技术路线、不同学科知识深度的模型，像一个高效的研究团队般协同运作。

Anthropic 在 2026 年 5 月发布的 BioMysteryBench 研究中，坦诚指出 Claude「适合辅助角色，难以主导科研进程」；Google DeepMind 通过 6 个分工精细的 Agent 构建 AI 协同科研系统，已部署至美国能源部下属 17 个国家级实验室；FutureHouse 凭借多 Agent 架构实现了 AI 端到端自主发现临床候选药物；上海 AI Lab 将多代理框架从「流程驱动」革新为「推理驱动」。这些布局都指向同一趋势——AI for Science 的竞争焦点已从「打造最强模型」转向「构建最优协作体系」。

我们在《AI for Science 正在进入下半场——从数据暴力美学到严谨科学范式》中曾分析：该学科正经历范式断层——架构层、数据层、闭环层各自完成代际更迭。更迭之后，这些模型不再孤军奋战，而是组建成协作团队。本文聚焦的是代际更迭后，模型的工程化应用路径。

2025 年初，Google DeepMind 推出了 AI Co-Scientist——基于 Gemini 2.0 的多代理科研平台。其架构包含 6 个职能明确的 Agent：

另设 Supervisor（协调者）负责任务分配、资源调度与异步并行处理。

其实际成果并非概念演示。在血液病领域，其提出的急性髓系白血病药物再利用候选已在体外肿瘤抑制实验中获验证；在肝病领域，其发现的肝纤维化新表观靶点已在人源肝脏类器官中获验证；在抗生素耐药领域，其预测的细菌基因转移机制与未发表的实验数据高度吻合。

2025 年底，Google DeepMind 通过 White House 的 Genesis Mission，将 AI Co-Scientist 部署至美国能源部下属 17 个国家实验室。这是 AI 工具在美国国家级科研体系中规模最大的部署案例之一。

由前 Google CEO Eric Schmidt 资助、定位于「AI for Science 非营利研究机构」的 FutureHouse，探索了另一条技术路径。其开放平台包含 4 个专业 Agent：

核心是其多 Agent 协作系统 Robin。2025 年 5 月，Robin 完成了首个 AI 端到端自主发现：将 ROCK 抑制剂 ripasudil（原为青光眼药物）作为干性年龄相关性黄斑变性（dAMD）的新疗法候选——从假设生成、实验设计到数据分析，全程由 AI 主导，人类研究团队仅耗时 2.5 个月。

由于发布后药企和生物科技公司的付费需求激增，FutureHouse 于 2025 年 11 月将 Robin 独立拆分为商业实体 Edison Scientific——非营利母体与商业化子公司双轨运行，旨在将多 Agent 科研发现成果产品化。

Anthropic 在 2026 年 5 月发布的 BioMysteryBench 研究中，做了一件业界罕见的事——通过结构化评估向业界揭示 Claude 在生物信息学研究中存在 brittle wins（不稳定胜利）：同一难题首次能解决，第二次未必能复现。

其结论非常明确：

Claude 适合作为人类科学家的研究辅助——拓展假设空间、交叉验证人类自身的「自洽偏见」、加速文献梳理和数据分析，但当前尚不适合主导研究工作。

这是业界罕见的、来自模型提供方的「能力边界声明」——而非营销话术，是基于评测数据的工程判断。

将视野拓宽，过去 18 个月从事「多 Agent 科研」的远不止这三家：

它们的方向不尽相同——有的专注于新发现，有的聚焦文献综述，有的从事化学合成，有的实现论文自动化——但都在践行同一范式：让 AI 从「一个全能选手」转变为「一个协作团队」。

综合上述案例分析，可以得出一个反共识的结论：

当一个领域的天花板不再是「模型本身有多强」，而是「任务有多复杂、问题有多开放、需要的技术路线有多异构」时，单 Agent 模式便显现出局限性。

科研并非一道「输入 → 输出」的简单命题。它是一个长循环流程：

假设生成 → 假设可信度评估 → 验证方案设计 → 实验执行 → 结果分析 → 假设修正 → 新假设生成。

每个环节需要的能力截然不同——文献综述需要检索召回能力，假设生成需要创造性发散，方案设计需要因果推理，实验验证需要物理/化学/生物专业先验，结果分析需要统计学严谨。期望一个最强的通用模型同时胜任这 6 项工作——这是过去几年 AI for Science 的普遍做法。

但 Anthropic BioMysteryBench 的实测数据表明：这条路存在瓶颈。

Claude 这类当前最顶尖的模型，在熟悉领域表现优异，在陌生领域则出现 brittle wins——能解决，但无法保证下次仍能解决。这不是「模型不够强」的问题，而是「用单一 Agent 承担所有任务」这一范式本身的局限。

Anthropic 自身通过研究论文承认了这一点：即便是 Claude，也不应被置于「主导科研」的位置。

将任务分解为 6 个 Agent 分工协作（Google 的方案），或分解为 3 个层次的子系统（上海 AI Lab 的方案），或分解为 4 个专家角色（FutureHouse 的方案），或分解为 Researcher / Engineer / Evolution Manager 三层（华为的方案）——

每一种方案都在做同一件事：让任务的复杂性和技术路线的异构性，通过分工协作得以消化。

这正是「模型如何协作」开始超越「模型有多强」，成为该领域真正竞争关键的原因。

将视角进一步拉远。

过去几年，「AI for Science」这个概念被过度泛化——药物发现、实验自动化、工厂智能管理、文献辅助阅读，都被归入此列。结果导致这个词的内涵越来越模糊。

如果按「AI 在工作流中实际承担什么角色」对这些应用重新分类，会发现 AI 在科研和工业领域实际上扮演着三种完全不同的角色——它们的核心资产、商业模式、退出路径都截然不同。

这是 AI 生成假设、设计方案、给出结论，人类科学家退居「监督和校验」位置的角色。

Google AI Co-Scientist 属于此类；FutureHouse Robin 属于此类；CMU Coscientist 复现诺奖级反应属于此类；Periodic Labs 这类「AI + 自驱动实验室」也属于此类。

其核心资产是自有的实验闭环——没有实验闭环，研究引擎只能停留在「软件层假设生成器」。这也是 Periodic Labs 两位前 OpenAI/前 DeepMind 顶尖研究者获得 70 亿美元估值的真正原因——他们做的不是训练更强模型，而是构建自驱动实验室。

实验闭环本身，才是研究引擎的真正护城河。

这是人类科学家主导，AI 辅助拓展假设空间、进行文献综述、交叉校验、编写代码、起草论文的角色。

Anthropic Claude 的自我定位即属于此类；OpenAI Deep Research 属于此类；Sakana AI Scientist 属于此类；FutureHouse 的 Crow / Falcon / Owl 文献检索 Agent 属于此类。

其核心资产是对人类科研工作流的深度嵌入——不是替代科学家，而是使科学家的有效产出倍增。

这条路的核心价值在哪里？Anthropic 的 BioMysteryBench 研究提供了一个反直觉的发现：

人类科学家在研究中的最大盲区是「自洽偏见」——倾向于只考虑能证实自己当前想法的假设，忽略其他可能性。

Claude 的真正价值，不是替科学家给出答案，而是替科学家「补全被自身遗漏的假设空间」。

这是研究助手角色独有的、研究引擎角色无法提供的价值。

这是 AI 不从事新发现，但将工厂、实验室、生产线上的重复劳动通过多个 Agent 串联自动化运行的角色。

国内离散制造业已有相对成熟的工厂级 Agent 编排方案；国内流程工业（化工、医药、食品、新能源）也有数家企业在实现「研发—实验—生产」全流程贯通。

其核心资产是客户网络与行业 know-how 积累——这是被严重低估、但最难被复制的护城河。一个最强的通用模型也无法习得一家化工龙头数十年特定工艺参数的沉淀，也无法习得一条产线上每位工人对设备异常的判断经验。

这三种角色并非互斥关系。一个完整的 AI for Science 企业或项目，通常会同时承担两到三种——只是侧重不同。

最危险的项目，是只做了其中一种，却宣称三种的故事。

这是判断任何 AI for Science 项目真伪的最快诊断框架——先问「它实际承担的是哪种角色」，再问「它的核心资产是否与该角色应有的护城河相匹配」。

国内从事 AI 主导研究引擎方向的玩家，与国际同行基本同步——上海 AI Lab Intern·Agent 1.5、华为 EvoScientist 在多代理框架上已处于第一梯队；产业落地侧，有头部企业通过自驱动实验室和分子大模型实现了完整的 DBTL（Design-Build-Test-Learn）闭环，资本市场给出的估值也在持续攀升。

国内从事 AI 辅助科学家方向的玩家相对较少——这是一个英语圈天然占优的赛道（科研论文以英文为主、Claude 和 Deep Research 这类产品天然优先服务英文学术世界），但在中文文献检索、中医药知识图谱、农业育种、垂直材料等方向上，机会窗口仍在开启。

真正可能在国际上「形成领先优势」的，是国内流程工业 AI 的兑现速度。

国内有一家化工龙头，这一年同时接入三套不同的 AI 系统——

一套用于智能控制和能耗优化（年节省综合成本超千万元）；

一套用于分子层面的研发加速（合作协议从 2022 年就已开始）；

一套是 2026 年新发布的 AI 无人化学实验室，开始替代部分实验环节。

这不是「概念验证试试水」，而是分层协同的真实生产——三套系统分别承担「流程编排 / 研究助手 / 研究引擎」三种角色，服务同一家化工龙头，在同一年并行落地。

这家化工龙头并非孤例。国内从事流程工业 AI 大模型的头部企业，2026 年第一季度工业 AI 业务收入已达 1.84 亿元，客户覆盖磷化、煤化工、能化、石油等多个领域的标杆企业。

为什么中国流程工业可能形成领先优势？因为它需要三个条件同时具备：

这三个条件在国内同时成熟的密度，可能确实领先国际半步——欧美具备第一、第二个条件，但缺乏第三个；东南亚和印度具备第三个，但缺乏前两个。

当 Google AI Co-Scientist 部署至美国能源部 17 个国家实验室时，国内一家化工龙头同时运行着三套不同代际、不同技术路线的 AI 系统——这两件事表面上是不同的故事，深层却是同一种产业范式：AI 不再孤军奋战，而是构成分层协同的团队。

AI for Science 真正稀缺的资产，已在迁移。

模型本身正在成为被调度的工具。同一团队会同时调用上一代的统计模型（在数据丰富的领域它仍然领先）、新一代的等变神经网络（在化学/物理领域注入物理先验）、领域专用大模型（在垂直行业捕捉 know-how）、QM/MM 等传统多尺度方法（在严谨科学范式中不可替代）。

真正稀缺的、真正决定一家 AI for Science 企业天花板的，是几件不容易被复制的事。

中央调度逻辑。Google AI Co-Scientist 的 Supervisor、FutureHouse Robin 的多 Agent 协调器、上海 AI Lab Intern·Agent 的进化子系统——本质上都在做同一件事：在合适的时点将合适的方法论交付给合适的 Agent。这不是单个最强模型能解决的问题，而是一个工程化系统问题——需要对任务结构、模型能力边界、计算资源约束、反馈链路设计都有深度理解。

调度器越智能，协作的成本越低，Agent 之间的边际协同产出越高。

多代模型的真实协同。不是用新模型替代旧模型，而是让它们各司其职——在数据丰富的领域让第一代统计模型继续领先，在数据稀疏加物理约束严格的领域让第二代严谨科学范式接棒。一个成熟的 AI for Science 系统往往同时调用 5—10 种不同的模型，按任务类型、数据质量、问题边界自动切换。

行业知识图谱。这是被严重低估的护城河。客户场景特定的工艺参数、实验失败案例库、设备维护历史、研发人员的判断习惯——这些是任何「通用最强模型」永远无法获取的资产。一家 AI for Science 企业接入的客户越深、合作时间越久、行业越聚焦，这个资产就越厚实。

实验体系是核心资产——没有实验闭环，研究引擎只能停留在软件层。客户网络与行业 know-how 积累，是实验体系之外的另一层核心资产。调度逻辑将多代模型串联起来，行业图谱将协作锚定在真实场景中。这三层叠加在一起，才是该领域真正稀缺、真正不可复制的护城河。

AI for Science 已不再是「训练模型」那么简单的事了。

它正在演变为一种「编排能力」的较量——擅长调度、协作、多代模型各司其职、将客户场景的 know-how 沉淀进系统、让 AI 在合适的角色边界内发挥最大价值的人，将会胜出。只专注于「训练最强模型」的人，将被逐渐拉开距离。

当业界纷纷追逐「更强大的模型」时，真正的领跑者已经在布局「更高效的协作」。

← 上一篇：海淀区2026年人工智能OPC创业扶持政策全解析下一篇：2026年都柏林大学AI暑期课程启动 →