标签

AI 重构蛋白质工程格局:Science 深度解析

发布时间:2026-05-25 03:29来源:微信阅读:3

本篇 Science 综述聚焦人工智能如何介入并革新蛋白质工程领域。文章并未将 AI 单纯视为一种新工具,而是将其置于蛋白质工程数十年来的核心挑战中:如何在浩瀚的蛋白质序列与结构空间内,精准寻得具备目标特性的蛋白。

作者首先梳理了前 AI 时代的两大路径:定向进化与计算蛋白设计。前者依靠突变、筛选及实验测定,能直接针对目标特性优化,但受限于通量、耗时与成本;后者基于物理启发的能量函数与结构建模,搜索范围更广、效率更高,却难以用单一能量函数涵盖表达、稳定性、催化活性及动态构象等复杂属性。

综述的核心观点是将 AI 蛋白质工程统一阐释为两项关键动作:更高效地探索蛋白质空间,以及更精准或经济地对候选蛋白进行评分。作者进一步用统计语言框定这一过程:蛋白质设计本质上是从符合目标特性的条件分布中采样。把握了这一逻辑,读者便能将序列生成、骨架生成、反向折叠、全原子建模、零样本评分、表示学习及文库设计纳入同一框架。

论文标题:How artificial intelligence is reengineering protein engineering

期刊:Science

发表时间:9 April 2026

DOI:10.1126/science.aec8444

作者:Jennifer Listgarten and Hanlun Jiang

作者单位:Department of Electrical Engineering and Computer Science, UC Berkeley;Center for Computational Biology, University of California Berkeley;UC Berkeley-UCSF Graduate Program in Bioengineering

文章开篇将蛋白质工程的重要性置于生命科学与产业应用的大背景下:蛋白质涉及能量代谢、基因调控及细胞结构,亦可被改造用于医疗、疫苗、农业、碳捕获、生物制造及材料合成。蛋白质工程的任务,是在远短于自然演化的时间尺度内,创造或改造具备特定属性的蛋白质。作者强调,该任务面临的是一个近乎无法穷举的巨大空间:即便是一个仅含 100 个氨基酸的小蛋白,其可能序列也高达 20^100 种,而其中能正确折叠并表达的只是极小部分。

在此背景下,定向进化与计算蛋白设计代表了两种互补路径。定向进化通过实验直接评估目标属性,评分与设计目标高度相关,但通常局限于对现有蛋白的局部探索。计算蛋白设计能在更广阔的序列与结构空间中快速搜索,但往往依赖近似的物理能量函数,该函数未必能准确描述催化、动态构象或特定功能。AI 的引入,旨在同时优化这两个环节:利用生成模型或学习到的分布实现更智能的搜索,并利用监督模型、生成模型或结构模型对候选变体进行更高效的评分。

因此,本文并非简单罗列 AI 工具,而是首先构建统一视角:若将目标属性记为 y,蛋白质序列记为 s,则设计问题可视为寻找或采样满足目标集合 Y 的序列,即从 p(s|y ∈ Y) 中获取样本。后文的所有模型路径,均可理解为围绕这一条件分布展开。

原文首先辨析了定向进化与计算蛋白设计的基本逻辑。定向进化将自然演化中的突变与选择压缩至实验流程,通过多轮突变、筛选与测定,将蛋白推向研究者设定的属性。其优势在于无需构建完整的生物物理模型,只要拥有具备相关功能线索的起始蛋白,即可利用实验结果直接指导下一轮优化。

计算蛋白设计则以另一视角切入问题:它不一定需要功能完整的起始蛋白,而是依赖蛋白结构数据库中的统计信息与近似物理模型,在序列与结构空间中进行计算搜索。它通过能量函数为三维构象和序列打分,进而选取更有利的候选。作者指出,这种方式在速度与探索范围上不同于定向进化,但也受限于能量函数的表达能力,特别是当设计目标涉及蛋白动态、量子力学层面的催化效应或复杂功能时,单一评分函数往往显得过于粗糙。

两条路线的共同难点,均在于需在巨大空间中搜索并对候选变体评分。AI 带来的希望并非绕过这一本质问题,而是改变搜索与评分的方式:一方面,模型可学习如何从某序列区域跳跃至更具潜力的区域,而非仅做随机微扰;另一方面,模型可在实验前预测表达、稳定性、活性等属性,从而减少搜索对盲目筛选的依赖。

进入概念核心后,作者构建了一个直观场景:假设已有一个体外属性的计算估计 f(s),可为每条序列 s 预测适应度或属性 y。最朴素的做法类似体外定向进化:从某序列出发,随机突变,计算 f(s),选择得分更高的变体,再重复。问题在于,这种突变生成方式本身并不知晓 f(s) 的形态,因此难以实现跨越式的、协调的变革。

AI 版本的进化算法将此过程改造为生成模型驱动的搜索。模型不再随机提出突变,而是学习序列分布 pϕt(s),并在每轮根据候选序列得分更新参数。随着迭代推进,模型逐渐掌握哪些序列区域在 f(s) 下表现更佳,并学会提出更符合高分区域几何结构的变体。原文特别指出,此处发生了语言层面的转换:我们不再单纯显式搜索某条序列,而是在搜索生成模型的参数,使其能表征我们所需的序列分布。

Table 1 的作用是为后文的统计解释建立共同语言。s 代表蛋白质序列,b 代表骨架结构,y 代表属性,Y 代表满足设计要求的一组属性值,f(s) 为适应度函数,p(s)、p(b)、p(s,b) 则分别表示序列、骨架及二者联合分布。读者只需把握核心:作者将蛋白质工程中的生成、评分与筛选,均转化为概率分布间的关系。

当属性预测模型具备概率解释时,例如 fθ(s) 可写作 pθ(y ∈ Y|s),条件自适应采样 CbAS 便可被解释为一种贝叶斯组合:将代表蛋白质先验知识的无条件生成模型 p0(s),与代表目标属性的预测模型 pθ(y|s) 相结合,得到更接近目标的条件分布 p(s|y ∈ Y)。在作者的表述中,AI 蛋白质工程的根本目标,即是估计并采样这一条件分布。

Figure 1 是全文最核心的概念图。左侧的 p(s) 代表泛蛋白生成模型,蕴含大量蛋白序列与结构的背景知识;中间的 p(y ∈ Y|s) 代表属性预测模型,源自实验测量或监督学习;右侧的 p(s|y ∈ Y) 则代表设计真正渴望的分布,即更可能满足目标属性的序列。下方的分布曲线说明,AI 设计的目的并非随意生成蛋白,而是将候选变体的属性分布向更高目标值推移。

在建立条件分布视角后,原文探讨了获取条件生成模型的三类方法。第一类是在训练时直接将条件变量写入模型,即预先设定模型需依据哪些属性生成序列,如酶分类号、二级结构或配体结合能力。其优势在于概念直观,模型训练后可直接按条件生成;局限在于必须提前知晓纳入哪些条件,且在训练时需拥有充足的监督数据。

第二类是将已有的无条件模型与属性预测模型组合,典型代表是 CbAS。原文将其解释为贝叶斯规则的应用:用 p(s) 代表泛蛋白背景,用 p(y|s) 代表目标属性预测,再组合出 p(s|y)。这种方式的优势在于可利用已训练好的大型泛蛋白模型,并在未来根据新实验数据或目标属性进行定制。不过,贝叶斯规则中的分母涉及对所有可能蛋白序列求和,通常无法直接计算,因此需借助变分推断或采样近似。

第三类是作者称为 on-the-fly 的条件化方式:不重新训练条件生成模型,而是在采样过程中利用属性预测模型提供引导。扩散模型、flow matching、score matching 及随机插值等模型均属此范畴。它们估计的是对数密度的梯度,而非直接估计密度本身;在采样过程中,模型将无条件生成分布的梯度与属性预测模型提供的引导项相混合。原文提醒,这种直觉更自然地适用于连续空间,如原子三维坐标;对于离散的氨基酸序列,需采用离散扩散、rate matrix 或连续松弛等专门处理。

作者还特别区分了正式的统计条件化与普通微调。将无条件模型在具备某种属性的序列集合上继续训练,虽在实践中有用,但并不等同于将无条件模型与属性预测分布进行严格的统计组合。这一区别至关重要,因为正式的条件化框架能更清晰地阐明信息源自何处、如何组合以及何时可能失效。

原文随后进入工具层面的梳理。最早的一类生成序列方法,是围绕某野生型蛋白及其同源序列建立多序列比对,再训练 Potts model 等家族特异模型。此类模型能依据蛋白家族的统计规律生成变体,曾用于 chorismate mutase 等案例。其局限也很明显:依赖自然同源序列,依赖良好的起始蛋白,且对目标属性的控制主要依赖温度等有限参数。

随着 UniRef 等数据库提供海量序列,作者转向泛蛋白模型。MSA Transformer、Neural Potts model 及后来的蛋白语言模型,试图将跨家族信息融入同一大模型中。原文对模型是否属真正意义上的生成模型做了区分:部分 masked language model 虽被用于生成序列,但在严格统计意义上未必总能正确采样;相比之下,覆盖完整 masking rate 范围的模型、自回归模型、扩散及相关模型更适合作为可采样生成模型。ESM3 等多模态模型还同时纳入序列、离散化结构及文本功能注释。

在结构设计中,典型流程是先从骨架生成模型采样骨架 b,再用反向折叠模型依据骨架生成序列 s。作者用概率链式分解解释这一点:联合分布 p(s,b) 可分解为 p(s|b)p(b)。RFdiffusion 和 Chroma 等骨架生成模型使蛋白工程社区能广泛使用基于 PDB 训练的骨架扩散模型。它们从噪声中的三维坐标出发,逐步去噪获得结构化骨架,并可根据对称性、几何约束、结合目标或功能 motif 进行条件生成。

但原文也强调,骨架生成模型的评估依然困难。常用的 designability 指标会将生成骨架交予反向折叠模型生成序列,再交由结构预测模型判断能否折回该骨架。这种评估同时受反向折叠模型和结构预测模型偏差影响,尤其是当研究者希望探索自然蛋白流形之外的区域时,指标未必可靠。

反向折叠模型的任务,是根据给定骨架生成与之兼容的序列。ProteinMPNN 和 ESM-IF1 是原文重点提及的代表,它们利用大规模结构 - 序列配对数据训练。作者指出,反向折叠的核心难点在于序列与结构间并非一对一关系,而是多对多关系:一个序列可能具有多个构象状态,一个结构也可能由众多不同序列实现。当前模型通常用单一结构配单一序列训练,这会限制对构象景观和序列多样性的表达。

原文进一步探讨了直接估计 p(s,b) 的可能性,即同时生成序列和结构。全原子建模试图一次性生成所有原子及其三维位置,这对某些条件极具吸引力,如活性位点的原子构型、RNA、DNA 或小分子结合目标。作者认为该方向存在技术挑战,例如在序列未定时如何决定生成多少原子;但它为原子级功能 motif 及非蛋白结合对象的条件化提供了更自然的路径。

原文接着提醒,所谓生成模型并不总是为了直接生成新样本。它们也可用于评分:若某序列在模型看来与训练数据相似,则可获更高似然或近似似然分数。此类任务被称为 zero-shot prediction,因未显式使用目标属性标注数据。作者指出,在多突变变体的零样本评分基准中,表现较好的模型通常不仅是单序列模型,而是纳入了结构信息、MSA 信息或两者兼有。

另一类用途是表示学习。研究者可从生成模型的中间层提取表示,再用于监督学习任务,如预测结构或蛋白属性。原文同时指出,现有基准数据集存在局限,尤其是许多数据仅覆盖接近野生型的少量突变,而 AI 设计真正渴望进入的,是离野生型更远、探索价值更高的区域。

在文库设计部分,作者将讨论从模型输出拉回实验现实。即使模型强大,通常也不能仅生成一个序列便完成设计;研究者仍需设计一批候选蛋白,并在实验中筛选。依据问题难度、已有知识和设计区域大小,候选数量可能从几十个至数百万个不等。由此引出两个问题:如何联合设计一批变体,以及如何考量基因合成成本。

若设计方法准确率较低,原文指出,有时不如设计一个随机合成过程,而非精确指定每条序列。例如通过控制每个位点上 A、C、T、G 的概率,可在相同合成成本下获得数量级更大的序列集合,但代价是对每条具体序列的控制力下降。作者还将这一问题与机器学习引导的定向进化、主动学习和实验预算分配联系起来:核心在于如何在有限时间、劳动力和经费内,选择最值得测量的候选。

原文用 What's easy, what's hard? 这一节概括了当前进展。蛋白结合物设计是 AI 蛋白质工程中进展较明显的方向之一。AI 出现前,计算设计的蛋白结合物文库对治疗相关靶标的命中率通常低于 0.05%;在生成模型和不断扩大的 PDB 支持下,某些案例中的命中率已提升数个数量级,使研究者可在微孔板层面做常规表征,而非完全依赖劳动密集型高通量筛选。

但作者马上补充,生成模型本身尚不足够。当前流程仍高度依赖后处理筛选,包括调用 AI 结构预测器及传统生物物理标准。将蛋白设计为结合任何类型生物分子仍更难,尤其是 DNA、RNA 和小分子,因相关复合物结构数据不足。成功设计的结合物多属小型、球状、以螺旋和片层为主的蛋白,而天然蛋白如抗体常依赖 loop 进行分子识别;通用模型尚不能稳健设计柔性 loop 和内在无序区域。

酶设计被作者描述为更困难的问题,因其要求极其精确的原子级知识,尤其是活性位点构型。对于简单且研究充分的反应,化学专家可通过量子力学计算构造理想化活性位点,即 theozyme;但对于复杂反应,常见策略只能从已知酶中提取活性位点,再以此条件化生成完整酶。此类策略可用于小型化、提高稳定性或单体化,但不足以设计未知反应的新催化活性,且往往仍需定向进化进一步优化。

原文还提及另一种基于功能注释的酶设计策略,即不显式建模活性位点,而是根据 Enzyme Commission number 等功能标签直接生成序列。作者对此策略的限定也很明确:它不太可能为此前未知的反应生成真正有功能的酶,因模型仍依赖已有功能类别和训练数据。

在 Outlook and discussion 中,作者将当前 AI 蛋白质工程的依赖关系阐述得极为直接:许多设计流程依赖结构预测模型,要么在生成循环中显式调用,要么在事后筛选中使用。然而结构预测模型扎根于自然蛋白宇宙,未必足以广泛判断人工设计序列是否有用。结构预测领域的进展,包括与冷冻电镜数据或分子动力学数据结合的方法,可能会继续影响蛋白质工程,但这些进展也提醒我们,AI 离不开昂贵、宝贵且最好公开的实验数据库。

作者反复强调泛化问题:AI 模型能否走向蛋白空间中“新的”区域,本身便是难以定义和验证的问题。由于训练数据附近往往表现更佳,而远离训练分布时可靠性下降,原文提出可理性融合生物物理模型与 AI 模型。前者理论上应更均匀地适用于蛋白空间,后者则在接近训练数据的区域表现突出;二者结合可能比单独依赖任一方更合适。

评估也是原文最后反复指出的问题。生成模型本就难以评价,而蛋白设计的真实评价常需湿实验,成本高、周期长,因此多数论文难以系统、现实地比较不同方法。作者提到,结构预测领域的 CASP 竞赛之所以推动巨大,是因为可在不合成蛋白的情况下做评估;但设计任务往往缺乏这样廉价且可靠的评估标准。作者因此呼吁更强的体外基准问题、更有用的指标,以及包含湿实验验证的竞赛,同时也鼓励新方法论文提供更多 baseline。

纵观全文,这篇综述最重要的贡献并非给出某一模型排行榜,而是将 AI 蛋白质工程重新组织为一个统计问题。设计蛋白,即是从满足目标属性的条件分布中采样;生成模型提供候选空间,属性预测模型提供目标方向,贝叶斯组合或采样引导则把二者连接起来。

第二个重要信息是,序列生成、骨架生成、反向折叠、全原子建模、零样本评分、表示学习和文库设计并非彼此孤立的工具箱。它们都围绕搜索、评分和条件化展开,只是处理的对象不同:有的处理序列,有的处理骨架,有的处理结构 - 序列联合分布,有的处理实验预算和合成成本。

第三个结论是,AI 已显著改变某些蛋白质工程任务,尤其是结合物设计和候选筛选效率;但在酶设计、柔性 loop、内在无序区域、非蛋白结合目标、远离训练分布的泛化以及真实评价指标上,原文仍保持谨慎。作者的态度并非简单宣称 AI 已解决蛋白质工程,而是强调 AI 正在将该领域推进到一个更明确的问题表述中:如何利用有限数据、有限实验和有限计算,更有效地逼近我们真正想要的条件分布。