新型AI工具RNAbpFlow精准预测RNA三维结构
该方法名为 RNAbpFlow,相关研究成果于 6 月 30 日发表在《自然方法》(Nature Methods)杂志上,该杂志是计算生命科学领域最具选择性的期刊之一。
如今,驱动图像生成器的同一人工智能技术正被用于破解生物学中最棘手的难题之一:RNA不断变化的三维结构。这些RNA分子是mRNA疫苗(例如用于预防新冠肺炎重症的疫苗)的核心成分。
弗吉尼亚理工大学两位计算机科学家开发出一种新方法,在绘制 RNA 图谱方面,其效果与世界上最先进的人工智能系统之一不相上下,而且所需的数据量要少得多。
这项名为 RNAbpFlow 的方法发表于 6 月 30 日的《自然·方法》(Nature Methods)期刊,该期刊是计算生命科学领域最具权威性的期刊之一。在与一个广泛使用的社区基准测试进行盲测后,RNAbpFlow 对 14 个 RNA 靶标中的 12 个都生成了正确的整体结构,而谷歌 DeepMind 的 AlphaFold 3 系统仅能正确解析 14 个靶标中的 8 个。更令人惊喜的是,RNAbpFlow 无需像大多数主流工具那样依赖庞大的进化序列数据库即可取得如此优异的成绩。
“我们询问是否可以利用我们现有的数据,并利用实验中获得的额外知识来填补数据空白,从而为基于 RNA 的药物发现提供一个公平的机会,”计算机科学系副教授兼该研究的资深作者Debswapna Bhattacharya说。
一种新方法
这项研究的影响并非空穴来风。2020年,美国食品药品监督管理局(FDA)批准了利司他普拉姆(risdiplam),这是一种每日口服药物,用于治疗脊髓性肌萎缩症(SMA),这是导致婴儿死亡的主要遗传性疾病之一。该疗法的作用机制是与RNA分子中特定的折叠结构结合,从而纠正基因的读取方式。它是最早一批直接靶向RNA的小分子药物之一,它帮助将这种曾经导致两岁前儿童死亡的疾病转变为一种可控的疾病。
但寻找像利司他普拉这样的药物可能是一个缓慢的过程,这主要是因为科学家难以观察到RNA折叠成的三维结构。RNA结构灵活,且在数据库中的数据严重不足,这使得RNA建模比蛋白质建模要困难得多。如果能开发出可以快速准确预测这些结构的工具,就能加速寻找治疗亨廷顿病、肌萎缩侧索硬化症、某些癌症和病毒感染等疾病的突破性疗法。
“如果你不知道RNA的形状,怎么能靶向它呢?”该研究的第一作者、该系博士生苏米特·塔拉夫德说。“RNA的形状中包含药物可以结合的口袋。如果你无法预测RNA的形状,那么你选择的口袋就错了——药物也就无法发挥作用。”
RNAbpFlow 采用了与更知名的竞争对手不同的方法。它不像 AlphaFold 等系统那样搜索数千个相关序列来推断结构,而是使用一种称为流匹配的技术。这种方法利用了与图像生成相同的生成式人工智能技术,并在一个端到端的过程中生成完整的、全原子的三维结构。
“我们希望化繁为简,仅使用序列和碱基对从头开始预测结构,”塔拉夫德说。“模型从完全的噪声开始,并在这些碱基对的引导下折叠成正确的3D形状。这就是流动匹配的妙处,我们可以生成任意数量的结构,从而捕捉分子实际的运动方式。”
发展空间
该方法对数据的低依赖性是其核心优势。大多数顶尖的人工智能方法都依赖于深度数据,包括来自不同物种的相关序列集合。众所周知,RNA序列的构建极其困难。而RNAbpFlow则完全不需要这些数据。这使得它对于许多已知亲缘关系较远的RNA分子尤为适用。研究团队模拟的案例包括SARS-CoV-2基因组中的一个保守结构元件和一个实验室构建的核酶。
研究人员也强调了他们目前工作的局限性。对于更大、更复杂的RNA,基于进化数据的成熟服务器仍然具有优势。但RNAbpFlow在数据匮乏等具有挑战性的情况下表现出色。
这项研究由博士生兼论文第一作者塔拉夫德 (Tarafder) 和巴塔查里亚 (Bhattacharya) 领导,并得到了美国国立卫生研究院和国家科学基金会的资助。塔拉夫德目前正在领导一项改进方法的研究,该方法将参加今年夏季的 CASP 竞赛。CASP 是一项面向全社区的预测竞赛,谷歌 DeepMind 的蛋白质折叠突破性成果正是在这项竞赛中首次引起全球关注。
为了顺应日益增长的可重复性科学的趋势,该团队已公开发布了完整的实现方案、训练数据和代码。
“我们对纳税人负有责任,我们所做的一切都是开源和公开的,都是为了公众利益。”
参考文献
RNAbpFlow: base pair-augmented SE(3) flow matching for conditional RNA 3D structure generation