北大刘宇阳:AI具身智能如何落地湿实验?BioProBench与BioProAgent详解
https://github.com/YuyangSunshine/bioproagent
https://arxiv.org/html/2603.00876v1
北京大学深圳研究生院 AI for Science(科学智能)学院于2025年成立,其核心目标是用人工智能解决科学难题。刘宇阳的研究重点在于AI驱动的科学实验具身智能体,致力于实现从计算辅助到真实环境自动化发现的跨越。
本期访谈聚焦于刘宇阳团队近期的两项成果:BioProBench和BioProAgent。BioProBench已开源并发表于arXiv,被ICML 2026收录,作为BioProAgent的评测基准;而BioProAgent也已获得ACL 2026的正式接收。以下为访谈实录。
https://github.com/YuyangSunshine/bioprotocolbench
https://arxiv.org/pdf/2505.07889
Max:能否先谈谈你的研究底层逻辑?你常提到的“三位一体”具体指什么?
刘宇阳:我设想的是一个以大语言模型或领域专用模型为核心的系统。模型作为“大脑”,指挥高级自动化设备和机器人设施在真实环境中开展实验。主要目的在于减少实验操作的繁琐、重复及风险,这是我研究的主线。
从宏观视角看,传统科学实验存在根本性困境。生化环材等领域的实验过去依赖人工,在高维空间进行低通量操作,导致数据稀疏。这种模式下,实验极易陷入局部最优,而非全局最优,纯靠试错的方法已触及天花板。
AlphaFold代表的是高通量仿真路径,能在虚拟空间逼近全局最优。然而,仿真解与真实世界解存在偏差,即“sim-to-real gap”。要实现从计算世界到真实世界的跨越,必须克服这一障碍。
因此,我的核心方向是打造AI驱动的科学智能科学家:首先利用理论推演从计算空间获取大致趋势,随后让智能体在真实环境中采样,获得小样本真实数据后进行修正和规范,通过不断迭代,最终逼近全局最优。
Max:目前“大语言模型+大量智能体”是热门范式,你认为其问题何在?
刘宇阳:大语言模型存在固有局限。其核心逻辑是基于概率的token预测——写文章时预测下一个token是可行的,能产生创意;但在实验中,这种无边界的思考会导致“幻觉”,这在物理环境中是不可接受的。
这引出了三个具体障碍。
首先是认知漂移。实验流程可能长达百余步,当模型处理此类长程任务时,设备信息和上下文记忆容易过载,导致对当下问题的理解发生漂移。
其次是上下文瓶颈。在拥有数十台设备的平台上,若扩展至上百台设备的大型设施,将所有API和架构一次性输入模型,仅解析API就会耗尽其精力,导致无法理解真实意图。
最后是执行逻辑错配。大语言模型遵循ReAct范式:先执行,再观察修正。但湿实验不可逆,必须先提交草稿供审核,确认在真实环境中可行后才能执行。
Max:BioProBench正是为了解决第一个问题而设计的?
刘宇阳:是的。我们发现此前鲜有人认真处理实验方案中的自然语言问题。因此,我们构建了首个大规模数据集和基准,用于评估大语言模型生成protocol的水平,并定义了评判维度和策略。
该数据集基于BioProCorpus构建,包含27,000篇由人工撰写的真实protocol,来源均为权威平台:Bio-protocol、Protocol Exchange、JoVE、Nature Protocols、Morimoto Lab及Protocols.io。