标签

JCTC | 人工智能与分子动力学模拟:谁更擅长预测「隐匿口袋」的开启概率?

发布时间:2026-04-15 16:51来源:微信阅读:6

在AI for Science的科研浪潮中,学术论文和前沿成果是激发思考、拓展视野的重要渠道。为助力科研工作者迅速把握复杂公式、打破学科界限、节省研究时间,星使智算特推出「科研聚焦」系列专题!我们将依托北大科研团队+ADAM智能体的双重优势,精选Nature、Chem. Sci.、J. Chem. Theory Comput.等顶级期刊中的标杆性论文,以「技术拆解+应用落地」的双重视角,为你提炼核心创新点、梳理技术逻辑链、解读科研价值与产业转化潜力。无需逐字研读冗长原文,10分钟即可掌握一篇顶刊的核心精华,让前沿科研成果真正为你的实验设计和技术研发赋能,少走弯路、高效突破!

在药物靶点发现领域,隐匿口袋(Cryptic Pocket)始终是一个极具吸引力的研究方向:这类口袋在常规状态下大多处于闭合状态,仅在极少数时刻因蛋白热涨落而短暂开启,因此往往不会直接出现在实验解析获得的静态结构中。

随着AI预测工具和分子动力学模拟技术的进步,研究人员已能在一定程度上识别这类口袋。然而,若要真正评估隐匿口袋的药物开发潜力,不仅需要成功预测其位置,还需精确计算它们开启的概率,因为这涉及对蛋白构象热力学、突变效应以及药物可及性的定量理解。

近期,宾夕法尼亚大学研究团队发表在《Journal of Chemical Theory and Computation》上的一项研究,以埃博拉病毒VP35和TEM β-内酰胺酶体系为对象,针对「预测隐匿口袋的开启概率」这一关键问题,对不同AI方法和分子动力学模拟方法进行了系统性的评估比较。

一、这篇文章旨在回答哪些核心问题

具体而言,作者关注的不仅是「计算方法能否猜测出可能存在口袋的位置」,而是一个更为严格的问题:

1. AI模型与物理模拟,哪一方能更精准地预测隐匿口袋的平衡开启概率?

2. 它们能否判断突变会使口袋更容易开启,还是更倾向于关闭?

3. 当口袋开启本身是一个低概率的稀有事件时,这些方法是否仍然可靠?

为此,作者选取了两个已具备充分实验定量数据的体系作为基准(图1):

🔺埃博拉病毒VP35:其隐匿口袋与局部螺旋分离相关,实验上可通过C307的暴露变化进行检测。

🔺TEM β-内酰胺酶:其Ω-loop附近存在隐匿口袋,野生型开启概率极低,更适合检验方法对稀有事件的敏感性。

图1 VP35(左)和TEM β-内酰胺酶(右)隐匿口袋示意图

二、作者是如何开展这种比较的?

Ⅰ 实验体系设计

作者不仅比较了野生型(WT),还纳入了多个突变体,以检验各种预测方法能否识别突变效应。

🔺VP35体系:WT, F239A, I303A, A291P

🔺TEM体系:WT, E240D, E240D/R241P, R241P

Ⅱ 实验基准

文章并非以「是否看起来合理」来评估模型,而是直接对照已有实验结果:

🔺VP35体系:通过巯基标记实验测得C307暴露相关平衡常数,再换算为口袋开启概率

🔺TEM体系:采用文献中已测得的Ω-loop口袋开启概率,作为真值参考

Ⅲ 统一判据

为公平比较不同方法,作者对两套体系都设定了明确的开/关定义:

🔺VP35体系:若G236与A306的Cα–Cα距离 > 1.0 nm,则定义为口袋打开。

🔺TEM体系:若E171与E240的Cα–Cα距离 > 1.0 nm,则定义为口袋打开。

对能生成结构集合的方法,作者直接统计「超过阈值的构象比例」;对仅能输出残基级分数的方法,则比较相应残基的口袋参与概率。

Ⅳ 参与测试的方法

该研究同时比较了物理模拟和AI预测两大类方法。

物理模拟方法:

1.FAST:10轮自适应采样,每轮10条轨迹、每条80 ns,总计8 μs/体系。

2.FAST+seeding MD:先执行FAST,再从1000个代表性构象各出发做3条40 ns模拟,总计120 μs/体系。这一部分主要用于VP35体系。

3.常规长时间MD:对TEM野生型,作者还重新分析了此前约90.6 μs的常规MD轨迹。

AI 方法:

1.AlphaFlow:默认设置下先生成250个构象,随后增至10000个构象测试采样能力。

2.BioEmu:默认设置下每个体系生成10000个构象,并用不同随机种子做独立重复实验。

3.PocketMiner:直接比较其对目标残基参与隐匿口袋的预测概率。

4.CryptoBank:将各突变体序列分别输入模型,并比较目标残基的预测概率。

三、主要结果:能判断开启趋势,难以算准绝对概率

Ⅰ VP35的预测结果

实验表明,F239A和I303A会促进口袋开放,而A291P会显著抑制开放。多数计算方法能捕捉到其中部分方向性变化,具体来看:

1.分子动力学模拟在趋势判断上表现优异,尤其FAST+seeding MD对VP35野生型的开启概率与实验值最为接近。

2.BioEmu能反映F239A、I303A开启倾向增加的趋势,但预测值整体落在较窄区间,压缩了实验上从极低到极高的动态范围。

3.AlphaFlow在所有VP35体系中几乎都只给出极低开启比例,即便将采样量从250提升到10000,也未能真正改善。

4.PocketMiner能识别部分突变趋势,但对A291P的显著关闭效应捕捉不足。

5.CryptoBank基本未能重现实验中的突变方向。

表1 VP35及突变体的口袋开启概率预测结果比较

Ⅱ TEM的预测结果

TEM的难点在于:野生型口袋本来就只在约1%左右的概率下开启。这使其成为检测稀有事件预测能力的更严格测试。结果显示:

1.常规长时间MD对TEM野生型的预测最接近实验值。

2.FAST对WT和部分突变体存在明显高估。

3.AlphaFlow依然几乎总是给出很低开启比例,但这更像是模型整体偏保守,而非真正精准。

4.BioEmu对TEM的预测也偏离实验,尤其难以刻画细微柔性变化。

5.PocketMiner能粗略反映整体趋势,但不同突变体之间区分度有限。

6.CryptoBank仍然给出普遍偏低、变化不大的分数。

表2 TEM及突变体的口袋开启概率预测结果比较

四、从构象分布角度分析,AI模型的问题根源在哪里?

这篇文章的一个很有价值之处,在于不仅看最终预测的概率,还深入分析模型究竟采样到了什么构象。

1.AlphaFlow的问题在于采样空间过窄。它生成的大多数结构都贴近晶体态,只出现极少量轻微张开的构象,说明其对稀有开启事件的覆盖不足。

2.BioEmu的问题更为复杂。它确实采样到了更丰富的构象,但其中一部分是明显过度伸展、甚至部分展开的结构,这些构象与实验数据并不一致,容易导致开启概率被系统性高估。

3.MD/FAST的优势在于采样路径更连续、物理解释更明确,尤其能展示从关闭态到部分开放态再到开放态的过渡分布。作者据此认为,至少在当前阶段,物理模拟在「解释为什么打开」这件事上仍然更有说服力。

五、结论

这篇文章的结论可简要概括为三点:

1. 现有AI和模拟方法,已能在一定程度上判断「突变让口袋更开还是更关」。

2. 但它们普遍还无法可靠预测隐匿口袋的绝对平衡开启概率。

3. 一旦进入真正稀有的开启事件区间,几乎所有方法都会明显变得困难。

总体而言,AI工具目前更适合做大规模初筛和趋势判断;若要对少数候选体系做定量分析、做机理研究、做热力学解释,仍离不开高质量物理模拟,且最好与实验数据相结合。文章也特别提醒,由于这里仅测试了两个实验数据充分的蛋白体系,因此结论很有启发性,但暂时还不宜过度外推到所有蛋白类型。

参考资料:Zhang, S., Miller, J. J. & Bowman, G. R. How Well Can AI and Physics-Based Simulations Predict the Probability a Cryptic Pocket Is Open? J. Chem. Theory Comput. (2026).

Sidereus

星使智算

星使智算是一家专注于科研智能体与垂类科学计算解决方案的创新型科技公司,致力于以人工智能赋能科研,重构科学研究范式。公司核心产品GaliLeo平台通过自然语言交互驱动科学计算,集成任务解析、工具调用与科研报告自动生成,显著提升科研效率与算力使用效能。

星使智算面向量子化学、生物信息、材料建模等多个高性能计算领域,提供智能体定制与计算平台服务。公司自研AI Agent「ADAM」已在多个场景中落地应用,具备高度可扩展性与专业化能力。与此同时,星使智算还提供对SPONGE分子动力学引擎的深度适配与计算支持,帮助科研用户高效开展分子模拟、自由能计算等关键任务,推动前沿科研成果的加速落地。

目前,星使智算已与多家一流科研机构与科研服务公司建立战略合作,持续拓展在新药研发、分子设计与基础科学研究中的智能化应用边界。