北大刘宇阳：AI具身智能如何落地湿实验？BioProBench与BioProAgent详解

发布时间：2026-06-08 04:20阅读：50

https://github.com/YuyangSunshine/bioproagent

https://arxiv.org/html/2603.00876v1

北京大学深圳研究生院 AI for Science（科学智能）学院于2025年成立，其核心目标是用人工智能解决科学难题。刘宇阳的研究重点在于AI驱动的科学实验具身智能体，致力于实现从计算辅助到真实环境自动化发现的跨越。

本期访谈聚焦于刘宇阳团队近期的两项成果：BioProBench和BioProAgent。BioProBench已开源并发表于arXiv，被ICML 2026收录，作为BioProAgent的评测基准；而BioProAgent也已获得ACL 2026的正式接收。以下为访谈实录。

https://github.com/YuyangSunshine/bioprotocolbench

https://arxiv.org/pdf/2505.07889

Max：能否先谈谈你的研究底层逻辑？你常提到的“三位一体”具体指什么？

刘宇阳：我设想的是一个以大语言模型或领域专用模型为核心的系统。模型作为“大脑”，指挥高级自动化设备和机器人设施在真实环境中开展实验。主要目的在于减少实验操作的繁琐、重复及风险，这是我研究的主线。

从宏观视角看，传统科学实验存在根本性困境。生化环材等领域的实验过去依赖人工，在高维空间进行低通量操作，导致数据稀疏。这种模式下，实验极易陷入局部最优，而非全局最优，纯靠试错的方法已触及天花板。

AlphaFold代表的是高通量仿真路径，能在虚拟空间逼近全局最优。然而，仿真解与真实世界解存在偏差，即“sim-to-real gap”。要实现从计算世界到真实世界的跨越，必须克服这一障碍。

因此，我的核心方向是打造AI驱动的科学智能科学家：首先利用理论推演从计算空间获取大致趋势，随后让智能体在真实环境中采样，获得小样本真实数据后进行修正和规范，通过不断迭代，最终逼近全局最优。

Max：目前“大语言模型+大量智能体”是热门范式，你认为其问题何在？

刘宇阳：大语言模型存在固有局限。其核心逻辑是基于概率的token预测——写文章时预测下一个token是可行的，能产生创意；但在实验中，这种无边界的思考会导致“幻觉”，这在物理环境中是不可接受的。

这引出了三个具体障碍。

首先是认知漂移。实验流程可能长达百余步，当模型处理此类长程任务时，设备信息和上下文记忆容易过载，导致对当下问题的理解发生漂移。

其次是上下文瓶颈。在拥有数十台设备的平台上，若扩展至上百台设备的大型设施，将所有API和架构一次性输入模型，仅解析API就会耗尽其精力，导致无法理解真实意图。

最后是执行逻辑错配。大语言模型遵循ReAct范式：先执行，再观察修正。但湿实验不可逆，必须先提交草稿供审核，确认在真实环境中可行后才能执行。

Max：BioProBench正是为了解决第一个问题而设计的？

刘宇阳：是的。我们发现此前鲜有人认真处理实验方案中的自然语言问题。因此，我们构建了首个大规模数据集和基准，用于评估大语言模型生成protocol的水平，并定义了评判维度和策略。

该数据集基于BioProCorpus构建，包含27,000篇由人工撰写的真实protocol，来源均为权威平台：Bio-protocol、Protocol Exchange、JoVE、Nature Protocols、Morimoto Lab及Protocols.io。