标签

AI“科学家”崛起:虚拟团队助力科研新突破

发布时间:2026-04-23 21:33来源:微信阅读:6

四月的一个周日清晨,病理学家托马斯·蒙廷经历了他职业生涯中最超现实的体验之一。在一款名为Virtual Lab系统的在线测试界面中,蒙廷组建了一支由六个人工智能角色构成的团队,这些角色均由商业大型语言模型驱动。他为团队成员分配了专业方向:几位神经科学家、一位神经药理学家和一位药物化学家。随后,他要求这个虚拟实验室小组探讨阿尔茨海默病的潜在治疗方法,分析知识空白、研发障碍以及待验证的假设——这些正是他在申请科研基金时必须面对的核心问题。

几分钟后,一份超过一万字的对话记录生成了。一位虚拟首席研究员率先开场:“感谢各位拨冗出席这场重要会议。”

蒙廷在加州斯坦福大学从事认知障碍研究,他正在尝试人工智能辅助科学领域的一个新兴方向:利用专家型聊天机器人团队像真实实验室团队一样推进科学想法。这些“共同科学家”系统的开发者认为,这种协作模式能帮助研究人员快速梳理研究假设,节省宝贵时间,并——尽管存在争议——催生具有创新价值的重要研究思路。

芝加哥大学及伊利诺伊州阿贡国家实验室的计算机科学家里克·史蒂文斯表示,他和其他具备计算能力的研究人员正在通过创建人工智能角色来构建自己的系统,这些角色随后会相互交流协作。“我的意思是,任何人都可以尝试这种方法。”他说道。

在许多此类系统中,涉及的大型语言模型不仅仅是相互碰撞创意火花。它们还会进行互联网搜索、编写代码并与其他软件工具交互,因此属于“代理人工智能”的范畴——这是一个相对模糊的术语,指的是能够自主执行任务的大型语言模型,尽管实际操作中通常需要大量人工监督。史蒂文斯指出,一组人工智能代理可以被整合进一个更庞大的系统,使其能够长时间专注于高难度问题而不易分心或陷入困惑。

“从某种意义上说,这与拥有更多同事本质上并无太大区别,”他表示,“只是他们不会疲劳,而且接受过全面的训练。”

为深入了解与虚拟团队协作的实际体验,《自然》杂志邀请了数位科学家试用斯坦福系统的某个版本,并采访了一些曾使用谷歌AI共同科学家工具的科研人员。一个聊天机器人网络会像诺贝尔奖得主聚集的会议室那样讨论,还是更像本科生课堂?它们产生的想法是荒诞不经、平淡无奇,还是富有价值且极具洞察力?

所有共同科学家系统都会为代理分配角色或设定人格特征并促使其互动,但具体实现方式各有差异。Virtual Lab由斯坦福大学詹姆斯·邹团队的计算机科学家凯尔·斯旺森及其同事开发,目前配备了两种默认角色,均由加州旧金山科技公司OpenAI的大型语言模型GPT-4o驱动。这两个角色分别是首席研究员和批评者——后者负责提供建设性的反馈意见。用户(或人工智能的首席研究员)可以任意添加更多具有特定专长的代理,为每个代理撰写简要描述以指导角色互动方式。用户可选择代理的发言轮次,分钟之内即可生成会议纪要。开发团队正在探索如何让代理学习与其设定专长相关的文献资料(正如其他研究者所尝试的那样),而不仅仅是简单要求它们扮演特定角色。

谷歌共同科学家由谷歌DeepMind的艾伦·卡蒂克萨林加姆(伦敦)和维韦克·纳塔拉詹(加州山景城)及其同事共同开发,是研究人员专注于生物医学领域人工智能研究的延伸成果,其中包括大型语言模型Med-PaLM。

与斯坦福系统不同的是,谷歌工具不允许用户为代理分配具体的科学专业方向。相反,代理拥有预设的特定功能:创意生成、反思或批评、观点演进、评估想法的相似度以避免重复、排序以及元评审。这六位代理均由谷歌的大型语言模型Gemini 2.0驱动。

用户通过几句话向系统输入提示,包括目标和期望的输出格式。用户可选择添加背景信息,如相关论文资料。代理之间相互协作解决问题,并在互联网上进行搜索,最终输出一份可能长达数十页甚至数百页的摘要报告。纳塔拉詹表示:“共同科学家就像一位聪明的科学伙伴,能够在浩瀚的研究海洋中洞察显而易见和不易察觉的联系。我们希望赋予科学家们超能力。”

与所有大型语言模型一样,驱动这些代理的模型有时会产生幻觉,生成可能不准确的文本内容。但史蒂文斯指出,在多代理对话中引入批评者或评审者往往能剔除不合理的内容。此外他还补充道,只要专家对输出内容进行核实,幻觉对于头脑风暴中的创新思维过程同样具有价值。

有证据表明,多代理策略相比仅与单一人工智能代理或机器人交流能够显著改善输出质量。例如,邹发现在使用GPT-4o的对话中加入批评者角色后,模型在研究生级别科学测试中的表现分数提高了好几个百分点,并在测试案例中优化了回答质量。

谷歌对其人工智能共同科学家系统进行了测试,旨在了解人类专家是否更青睐其多代理生成的内容,而非单一聊天机器人的输出。专家们对共同科学家系统产生想法的新颖性和影响力评价略高于Gemini 2.0或OpenAI的o1。

部分研究甚至深入探讨了代理的最佳数量及讨论轮次。上海人工智能实验室的计算机科学家董南庆及其同事正在开发VirSci系统,他们指出,当一个由八位代理组成的团队轮流进行五轮对话时,创造力达到峰值。斯旺森则根据个人经验表示,增加超过三名专家往往只会导致“文字冗余”,而超过三轮对话有时会让代理偏离主题。

斯坦福大学医学研究员加里·佩尔茨经常在工作中运用人工智能,他是谷歌人工智能共同科学家的首批测试者之一。他希望借助该工具寻找治疗肝纤维化的药物。由于人工智能系统尚处于开发阶段,他将查询请求发送给了谷歌的相关人员。他的提示写道:“请就肝纤维化中肌纤维母细胞形成所需的基因和表观基因组变化提出假说,并建议我们应测试哪些药物作为肝纤维化的新治疗方法。”同时他还附上了一些详细的背景信息。大约一天后,他收到了回复报告。

经过初步铺垫,报告开篇写道:“我们提出一个新的假说……”随后逐步推进,最终总结道:“这项研究可能对肝纤维化研究和治疗进展产生深远影响。”

佩尔茨回忆道:“当我读到这份报告时,我简直震惊得从椅子上跳了起来。”他此前刚完成一份关于表观遗传变化在肝纤维化中重要性的资助申请,而人工智能恰恰针对同一主题提出了治疗建议。

这位人工智能共同科学家建议了三种药物,佩尔茨自己又补充了两种(这些药物均已获批用于治疗其他疾病)。谷歌资助佩尔茨协助加速实验室验证,在接下来的几个月里,佩尔茨的实验室在其人类类器官模型中测试了全部五种药物。人工智能建议的三种药物中有两种显示出促进肝脏再生和抑制纤维化的潜力,而佩尔茨自己提出的两种均未取得成效。

他表示这次经历让他印象深刻:“这些大型语言模型就如同早期人类社会的火种。”

然而,其他肝病研究人员认为,人工智能对药物的建议既非特别创新也非深刻独到。在纽约西奈山伊坎医学院从事肝病研究的王双表示:“我个人认为这些建议相当常识化,实际上并无太多深刻见解。”谷歌的纳塔拉詹反驳道:“有时候事情事后看来就变得显而易见。”

佩尔茨特别指出,他“对人工智能没有优先考虑我关注的事项感到震惊”。在人工智能候选药物清单中最具前景的药物——沃里诺司特,他在PubMed上仅找到两篇关于其治疗肝纤维化的论文。而他自己的选择有更多的相关文献,似乎是更显而易见的候选方案。他补充道,阅读人工智能报告的过程类似于与博士后讨论。“他们对事物的看法与我完全不同。”他说道。