AI重构蛋白工程:开启生命设计新纪元
大自然耗费数十亿年才雕琢出生命的蛋白质蓝图,而蛋白质工程却要在极度压缩的时间维度——数年甚至更短,在AI加持下或许仅需数日——内打造出具备特定功能的蛋白分子,这绝非易事。
传统蛋白工程主要依赖两大范式:曾获2018年诺奖的"定向进化"(DE)与斩获2024年诺奖的"计算蛋白设计"(CPD)。前者如同"人工加速的自然筛选",通过反复诱变与筛选在实验室中"培育"优质蛋白,但耗时费力且需优质起点;后者则试图借助计算机模拟与物理法则从零"推演"理想蛋白结构,尽管检索迅速,却因理论模型过度简化而难以复现复杂的生化反应。
两大路径面临的共同难题是蛋白质的可能性近乎无限。每个蛋白通常由20种氨基酸构成,因此一个仅含100个氨基酸的小型蛋白,其潜在序列数便高达20^100种,远超宇宙原子总量。如何在如此浩瀚无垠的未知领域中,精准捕获那条"能执行特定使命"的稀有序列?
近年来,人工智能凭借其在高维序列空间中高效搜寻目标蛋白的能力,为蛋白工程注入了新动能。AI正演变为这场寻猎之旅的顶级"导航仪"与"探测雷达",既能绘制全域图谱,又能规划最优路径。
近期,权威期刊《科学》刊载题为《人工智能如何重构蛋白质工程》的综述文章,全面剖析了AI对这一领域的颠覆性变革。
AI的"炼金炉":条件生成模型
假设我们拥有一本记载自然界所有已知蛋白的"天书"(通用AI模型),它揭示了蛋白序列的普适法则。现在,你想从中"淬炼"出一种新型蛋白酶,要求它在80°C高温下保持稳定,并能高效催化特定化学反应。
AI蛋白设计的终极追求,是计算出"在既定设计条件(Y)下,某蛋白序列(s)出现的概率分布"——即p(s|y∈Y)。随后从该分布中采样,即可直接获取满足需求的候选序列。这如同在"天书"上施展精准的"筛选咒"与"导引术"。
从统计学视角审视AI蛋白工程
该综述指出,实现这一"咒语"主要有三大策略——
预设条件:在训练AI模型之初,便将"热稳定性"、"催化效能"等条件作为"配方"直接"烘焙"入模型。此法针对性强,但每需新条件就得重"烤"模型,成本高昂且缺乏灵活性。
组合模型:无需重训"天书",而是为其配备一本"说明书"——一个能预测特定性能的AI模型。通过数学手段将二者融合,动态聚焦目标特性。此法灵活且可利用最新数据与模型,但计算复杂度较高。"适应性条件采样"(CbAS)即为此策略的典型代表。
即时引导:不改变模型本体,而是在其"生成"新序列的每一步,都用"说明书"实时"牵引"生成过程,使其偏向满足条件的序列。扩散模型等常采用此法,虽优雅但生成速率可能偏低。
AI"炼金"实战:从"骨架"到"血肉"
理论框架之下,AI在蛋白工程中正以多种具体方式大显身手:
骨架生成:先由AI构想出一个全新且稳定的蛋白骨架结构。例如RFdiffusion与Chroma,能从一团"噪声"起步,逐步"雕琢"出可设计的全新蛋白三维骨架,并可"即时引导"其嵌入特定功能位点(如药物结合口袋)。
逆折叠:骨架既定,下一步便是"填充血肉"。逆折叠模型(如ProteinMPNN、ESM-IF1)能依据给定骨架结构设计出可折叠成该构象的氨基酸序列,此乃当前从头设计蛋白流程的关键环节。
联合生成:更前沿的探索致力于让AI"一气呵成",同步生成序列与结构,甚至直达原子级精度。这对于需精确调控活性位点原子排布的酶设计尤为关键。
评分与特征学习:部分生成模型本身不参与"创造",而是充当"裁判"或"特征提取器"。它们能评判给定序列是否"形似"天然稳定的好蛋白,或从序列中挖掘深层特征以预测其结构与功能。
成果、挑战与前景
AI的介入已催生实质性突破。在蛋白结合剂设计领域,成功率(命中率)从AI应用前的不足0.05%跃升至可观的百分比水平,使众多设计可通过微孔板表征,无需依赖劳动密集的高通量筛选。
然而,挑战依然艰巨:
数据饥渴:设计可结合小分子、DNA/RNA(而非仅结合其他蛋白)的蛋白仍具挑战,因蛋白与这些分子复合物的结构数据匮乏。
柔性难题:当前最成功的模型擅长设计由规则螺旋与折叠片构成的刚性"小球状"蛋白,但对于依赖柔性环区进行分子识别的抗体等蛋白,尚缺乏普适性的强大设计工具。
"圣杯"尚远:酶设计或许是最高峰,它要求原子级精度的活性位点化学认知。当前AI模型多在已知酶活性位点基础上"重塑"周边结构,尚难以从零开始设计针对全新化学反应的高效催化剂。
评估困境:如何公正评估与比较不同AI蛋白设计方法?湿实验验证代价高昂,而依赖AlphaFold等结构预测模型又可能陷入天然蛋白的"舒适区",制约设计创新。因此,构建含真实实验验证的基准测试是推动领域发展的关键。
总而言之,人工智能正将蛋白工程从依赖大量试错与物理近似的"手艺",转变为基于概率模型与数据驱动、更具可预测性的"工程科学"。它借助条件生成模型这一核心理念,将搜索与设计融为一体,使我们在蛋白的浩瀚宇宙中实现"智能导航"。
尽管在酶设计、柔性蛋白设计等领域仍存"硬骨头",且AI模型的普适性与评估体系尚待完善,但AI无疑已为该领域注入强劲动力。未来,伴随高质量数据持续积累、模型与生物物理原理深度融合,我们有理由期待,定制具备任意想象功能的蛋白质将不再是遥不可及的梦想。
论文链接:
https://www.science.org/doi/10.1126/science.aec8444