Nature新突破:多AI模拟科学家辩论,能否自主发现新知?
近年来,我们已习以为常:AI能阅读论文、归纳文献、编写代码、解析数据、润色文稿,甚至提供若干“研究思路”。但一个更为大胆的议题正浮出水面:AI能否真正投身于科学发现?
请注意,这并非指“提升科学家效率”,也非“将数十篇论文浓缩为摘要”,而是更进一步——面对尚无标准答案的科学难题,AI能否自主查阅资料、提出多重假设、相互辩驳、筛选优胜方案、优化实验设计,最终输出具备实验室验证价值的科学假说?
2026 年 5 月,《自然》(Nature)刊发了题为《Accelerating scientific discovery with Co-Scientist》的研究论文。研究团队基于 Gemini 构建了多智能体系统 Co-Scientist。其目标并非解答已有标准答案的问题,而是针对开放性科研目标,主动检索文献、生成多个假设、批判不同方案、持续对比优化,最终确立值得进入实验室验证的研究方向。
如何在庞大的可能性空间中锁定真正值得验证的问题?
传统大模型通常遵循:
问题 → 推理 → 回答
而 Co-Scientist 则采用另一条路径:
研究目标 → 生成假设 → 文献验证 → 相互批判 → 竞争排序 → 迭代改进 → 实验验证
因此,它不追求一次性生成所谓“正确答案”,而是期望通过持续搜索与竞争,逐步压缩假设空间。本质上,Co-Scientist 将科学发现重新定义为假设空间的搜索问题。
Co-Scientist 并非单一的大模型,而是一个由多个专业 Agent 构成的协作系统。不同 Agent 承担不同职能:
系统外部设有 Supervisor Agent,负责任务协调与计算资源分配。整个系统可概括为一个循环:
生成 → 质疑 → 比较 → 进化 → 总结反馈 → 再次循环
这与真实科研流程高度相似。优秀的研究假设往往并非初次即完整呈现,而是在文献检索、同行质疑、实验约束与反复修正中逐渐成型。
尽管 Co-Scientist 包含多个 Agent,其整体逻辑可归纳为三大核心过程:扩大搜索空间、建立选择压力、实现持续进化。
Generation Agent 负责提出各类科学假设。它不仅直接生成构想,还会检索文献、模拟专家间讨论,并将复杂问题拆解为多个可验证前提。例如,一个基础假设为:
抑制 IRE1α 或可治疗 AML。
系统将进一步追问:哪些 AML 亚型依赖该通路?不同细胞状态是否存在敏感性差异?药物是否具备治疗窗口?观测效应是否源于其他机制?因此,AI 生成的不应仅是听起来合理的“故事”,而应是一组可逐步检验的问题。
Reflection Agent 扮演审查员角色,对假设进行事实核查、文献更新与逻辑审查。这一步至关重要。论文消融实验显示,若无外部搜索工具,大模型易将已发表的研究方向误判为“创新”。因此:
模型未知,不等于科学界无人涉足。
通过初步审查后,不同假设将进入由 Ranking Agent 组织的“锦标赛”。系统通过两两比对与科学辩论,评估各假设的合理性、新颖性、可验证性及潜在价值,并生成动态排名。Proximity Agent 则负责识别重复假设及不同研究方向间的关联,避免系统产出大量“换汤不换药”的观点,同时维持假设空间的多样性。
排名靠前的假设不会直接成为最终答案,而是交由 Evolution Agent 继续优化。系统可:
补充证据、修补逻辑漏洞、简化实验设计、融合两个优质方案,或主动探索全新方向。一个颇具巧思的设计是,改进后的新假设不会直接覆盖旧版,而是与旧假设重新竞争。换言之:
AI 自认“改进”,未必代表真正更优。
Meta-review Agent 则从更高层面总结系统反复出现的问题。例如,若多个药物方案均因毒性、药代动力学或组织可达性而失败,这些经验将反馈至下一轮推理。因此,Co-Scientist 形成了一个闭环:
单个假设引发问题 → 归纳共同失败模式 → 优化下一轮生成与评估
这也是 Co-Scientist 区别于简单“多 Agent 聊天”的关键所在。
Co-Scientist 仍存在显著局限。首先,文献检索不完整可能导致将已有研究误判为创新;其次,Elo 评分与 LLM 法官无法替代真实科学验证;再次,公开文献缺乏大量阴性结果,易形成知识偏差。此外,细胞与类器官实验距离动物验证及临床转化尚远,且完整系统未公开、多轮 Agent 推理算力需求高,亦限制了复现与普及。因此,现阶段更现实的模式仍是:
AI 负责探索可能性,科学家负责判断,实验负责裁决。
未来,AI 或可一日生成数百乃至数千个看似合理、附带文献依据与实验方案的假设。当“提出想法”不再稀缺,真正稀缺的或许将变为高质量样本、真实阴性结果、可靠实验体系、因果证据,以及科学家的判断力。Co-Scientist 真正提出的命题或许是:在 AI 时代,科研最重要的能力,可能不再是提出更多假设,而是在无限可能中识别真正值得验证的问题。