2026_Science_人工智能驱动蛋白质工程变革
文章题目:How artificial intelligence is reengineering protein engineering (人工智能如何重塑蛋白质工程) 文章 DOI 号:10.1126/science.aec8444 期刊名称:Science 通讯作者:Jennifer Listgarten 通讯作者工作单位:加州大学伯克利分校电气工程与计算机科学系 (Department of Electrical Engineering and Computer Science, UC Berkeley)
蛋白质工程致力于通过修饰天然蛋白或从头构建新蛋白,以满足医疗、农业及工业制造等领域的特定需求。传统的定向进化 (Directed evolution, DE) 和计算蛋白质设计 (Computational protein design, CPD) 在探索浩瀚的蛋白质序列空间时,分别受限于实验通量不足和物理能量函数精度不够的瓶颈。本文综述从统计学与概率论的视角,系统阐述了人工智能 (AI) 如何重构蛋白质工程。文章深入剖析了生成模型 (Generative models) 如何在高维序列空间中实现高效检索,并详细探讨了构建条件生成模型 (Conditional generative models) 的三大核心策略。此外,综述全面评估了 AI 在序列生成、骨架结构生成、逆向折叠 (Inverse folding) 及全原子联合生成方面的最新突破,并分析了零样本评分 (Zero-shot scoring) 和文库设计在实际应用中的意义。该综述为理解现代数据驱动的蛋白质设计提供了统一的理论框架,同时指出了未来在复杂酶催化设计与柔性区域建模方面所面临的挑战。
本报告将依据以下逻辑框架对原文进行深入解析:
自然界中蛋白质的进化经历了数十亿年,而蛋白质工程则需在极短时间内完成特定功能的定制。传统上,定向进化 (DE) 依靠迭代式的随机突变与实验筛选来优化蛋白,但这高度依赖具备初始活性的起点,且探索范围局限于已知序列周边。计算蛋白质设计 (CPD) 利用基于物理学的近似能量函数在计算机内进行搜索,虽能覆盖更广阔空间,但其能量函数往往过于粗糙,难以捕捉酶催化所需的复杂蛋白动力学或量子力学效应。AI 的引入彻底改变了这一局面。AI 的核心愿景在于:(1) 通过大跨度的智能跳跃,更高效地搜索庞大的序列空间(一个含 100 个氨基酸的蛋白就存在种可能序列);(2) 快速且低成本地预测蛋白属性(如表达量、稳定性及活性),从而指导搜索方向。
为了在序列空间中导航,AI 依赖计算机模拟的适应度函数 (Fitness function)。假设我们拥有一个基于机器学习的预测模型,其中是序列,是预测的属性(如催化效率),是模型参数。传统的计算机模拟进化算法 (Evolutionary algorithm, EA) 在提出突变时往往是盲目的。而 AI 驱动的搜索则利用生成模型(如变分自编码器 (Variational autoencoder, VAE))来提出突变。随着搜索推进,生成模型会依据适应度得分不断迭代更新,从而“嗅探”出适应度景观的几何特征,并提出日益优异的序列。
在此,作者引入了一套严谨的统计学符号体系来规范这一流程:
[表 1:本文使用的数学符号总结]
AI 蛋白质工程的终极目标是精确估计并从一个以属性为条件的概率分布中进行采样,即。作者总结了实现这一目标的三种策略:
[图 1:从统计学视角审视基于 AI 的蛋白质工程]
除了图 1 展示的贝叶斯规则结合策略外,另外两种策略包括:
原文详细梳理了当前主流的几类生成模型:
生成模型不仅用于“生成”,还可用于零样本评分 (Zero-shot scoring)。通过评估序列在预训练模型下的统计学似然度,可在无需任何突变标签数据的情况下预测蛋白质的稳定性或功能。此外,考虑到 DNA 合成的成本,AI 模型通常需要设计包含成千上万个变异体的文库。当模型精度不足以“一击必中”时,研究者会转向随机合成协议的设计——即学习序列分布的参数(例如,指定固定长度序列中每个位置 A、C、T、G 的概率),从而在相同的合成成本下生成数量级更多的序列,以提高命中率。
本综述系统性地阐明了人工智能如何将蛋白质工程从传统的启发式搜索和粗糙的物理能量计算,转变为基于严谨统计学和概率论的条件分布采样过程。通过整合序列语言模型、主链扩散模型和逆向折叠技术,AI 极大地扩展了人类探索高维蛋白质序列空间的能力。贝叶斯推断和即时梯度引导等数学工具的应用,使得研究人员能够将海量进化数据中蕴含的先验知识与特定的工程目标完美结合,从而以前所未有的效率设计出高亲和力的结合蛋白和具有特定物理化学性质的新型分子。
尽管取得了巨大进展,作者明确指出了当前 AI 蛋白质工程面临的几个尚未解决的关键科学问题和技术挑战: