AI靶点发现新纪元:Nature Reviews Drug Discovery全面解析从识别到临床的创新路径
传统药物靶点发现耗时漫长且风险极高——人类约20,000个蛋白编码基因中仅有716个被成功药物靶向。进入AI时代,机器学习、大语言模型和知识图谱正从根本上改变靶点识别与评估的效率。2026年4月发表于《Nature Reviews Drug Discovery》的重磅综述《Target identification and assessment in the era of AI》系统梳理了这一领域的突破、挑战与未来方向。本文为你提炼核心干货,并解读为何该文能登顶顶刊。
📊 图1|AI赋能靶点识别全流程
▶ 从疾病生物学理解、文本挖掘、组学分析,到可药性、安全性、专利竞争及实验验证 —— AI工具集成多模态数据,构建统一生物学表征,系统性生成并排序靶点假说。
成功的靶点需要满足治疗假说、可药性、安全性、新颖性与商业价值的平衡。人类遗传学支持能使药物成功概率提高2倍以上。孟德尔随机化、定量性状位点分析等技术正从大型人群中推断靶点因果关系。此外,小分子之外的模态(抗体、寡核苷酸、CAR-T)扩充了可药基因组;而像DeeplyTough这类AI工具通过蛋白口袋结构相似性预测脱靶风险,早期规避安全性隐患。新靶点"first-in-class"与成熟靶点"best-in-class"的权衡决定市场独占期和回报,而联合疗法(如sacubitril+valsartan)则提升了治疗价值。
从基因组、转录组、蛋白质组到单细胞成像、知识图谱(STRING, KEGG, PrimeKG)和电子健康记录。例如Cell Painting结合机器学习,通过化合物扰动的细胞形态学变化发现VEGF/PDGFR等抗纤维化靶点;Recursion的Phenom-Beta利用9300万张高内涵图像自监督学习,重建基因-化合物相互作用。
· 监督学习:BANDIT成功预测抗癌药ONC201靶向DRD2,后经临床验证;L2G模型从GWAS位点中富集已知药物靶点。 · 无监督/自监督:ImageMol、Rosalind张量分解预测基因-疾病关联。 · 图神经网络:KG4SL预测合成致死;EMOGI整合PPI与多组学识别新癌基因。 · 生成式AI与基础模型:Precious2GPT生成多组学数据;Geneformer和scGPT基于3000万单细胞转录组预训练,预测CRISPR扰动结果;AlphaFold3解析蛋白-配体及抗体-抗原复合物,助力可药性评估。 · 大语言模型:BioGPT、TxGemma及AI co-scientist(Gemini 2.0多智能体)在肝纤维化中优先验证了HDAC和BRD4靶点;OriGene虚拟疾病生物学家框架识别出GPR160等肝癌新靶点,并在患者类器官中验证。
🧫 图2|基于AI的细胞成像靶点发现流程
疾病模型细胞 → 高通量化合物库筛选 → Cell Painting染色(细胞核、线粒体、内质网等)→ 机器学习/Transformer提取表型特征 → 确定新型治疗靶点(如VEGF, PDGFR等)
回顾性验证:PandaOmics平台"时间机器"策略用历史数据预测后来进入临床的靶点,准确率高;实验验证:如RefMap发现ALS新基因KANK1并通过CRISPR敲低验证;AI驱动子宫内膜异位症靶点GBP2/HCK,经siRNA小鼠模型显著减小病灶。前瞻性验证:2018年一项研究回顾十年前的AI预测,当初判定为"有前景"的III期靶点中10/16最终获批,而非前景组仅1/15成功。inClinico平台前瞻预测II期试验准确率高达79%。这些策略确保AI模型可靠性。
⚙️ 图3|三大验证策略:回顾(时间机器)→ 实验(体外/体内)→ 前瞻(真实临床结局)
AI预测的KANK1(ALS)、GBP2(子宫内膜异位症)分别经动物模型证实;SYK抑制降低tau蛋白磷酸化在后续独立研究中被验证,形成闭环优化。
🔹 TNIK → IPF(特发性肺纤维化) 英矽智能PandaOmics平台将TNIK列为首选靶点,生成式AI设计出INS018_055抑制剂。中国II期试验(71例患者)达到安全终点并观察到剂量依赖性用力肺活量改善;美国IIa期同步进行。 🔹 APLNR → 抗衰老与肌肉减少症 BioAge利用人类纵向多组学+贝叶斯网络,发现apelin受体激动剂azelaprag在Ib期试验中防止老年卧床者的肌肉萎缩。虽一项联合用药II期因肝酶升高终止,但化学上不同的APJ激动剂仍在开发。 🔹 PIKfyve → ALS Verge Genomics的ConVERGE平台整合多组学,VRG50635(PIKfyve抑制剂)进入I期,但2025年底因疗效不足终止项目——凸显转化挑战。 🔹 DRD2 → 抗癌 BANDIT模型通过药物相似性发现ONC201靶向DRD2,并推动其在H3 K27M突变弥漫性中线胶质瘤获批(2025年FDA加速批准),尽管主要抗肿瘤机制可能还涉及线粒体ClpP。
数据质量参差、罕见病及少数族裔数据缺失、结果可重复性低(癌症生物学领域仅40%阳性结果可复制)等问题仍存在。多模态整合(如WNN单细胞分析)显著优于单模态,可解释AI(如特征归因L2G、P-NET)打破黑箱,提升专家信赖。标准化基准TargetBench开始统一评估靶点检索质量。合成数据与数字孪生正在解决数据稀缺性,而AI驱动的闭环实验平台(自动化实验室+强化学习)实现"预测→验证→再训练"高速迭代,代表下一代药物发现的基础设施。
🔄 图4|AI驱动的闭环实验平台
AI提名靶点 → 自动化实验室进行药理学扰动 → 高内涵成像+多组学分析 → 结果反哺模型,优化靶点优先级。AstraZeneca iLab、Tempus Loop、Insilico自动化模块均为此范式先行者。
🔑 核心启示:AI靶点发现已从"理论可能性"进入临床验证阶段(如TNIK、DRD2),但高失败率亦暴露数据偏差和生物学复杂性。只有结合可解释模型、高质量人类遗传证据及闭环验证,才能切实提高转化成功率。
✅顶级期刊所需的全面性与权威性:覆盖靶点识别、评估、临床案例到未来技术,引用超200篇前沿文献,引用包括AlphaFold3、scGPT、AI co-scientist等最新成果,体现对领域全貌的掌控。
✅清晰的逻辑框架与实用价值:不仅罗列AI工具,更梳理"关键考量(可药性/安全性/商业性)→ AI模型分类→ 验证体系→ 真实临床案例",为工业界和学术界提供可操作的决策路线图。
✅批判性洞察与平衡观点:突出AI靶点仍有失败案例(如PIKfyve抑制剂因疗效不足终止),直面数据偏差、可重复性危机及黑箱问题,并提出闭环实验、可解释AI等解决方案——体现学术严谨性。
✅前瞻性引领未来:专设"合成数据+数字孪生""AI自动化闭环平台"章节,预测药物发现范式转移。期刊需要引领方向而非简单归纳,该文成功做到了对"下一代靶点发现"的路线图绘制。
✅行业影响与跨学科整合:将生命科学、计算生物学、临床医学与商业策略融合,提供专利分析、竞争情报等罕见视角,符合NRDD"转化科学与产业创新"定位。
总之,这篇文章不仅系统总结了AI如何加速靶点发现,更揭示了该领域仍然面临的硬性挑战,并提出切实可行的前进路径,兼具综述深度、战略远见和现实指导意义,因此成功发表于Nature Reviews Drug Discovery。
结语:AI并不神奇,但它能以前所未有的规模整合生物复杂性,将靶点发现从"偶然撞见"推向"系统性设计"。随着多模态基础模型和自驱动实验室的成熟,我们有望迎来更高密度的创新药物管线。未来已来,但通往临床的成功仍需谨慎验证与跨学科协作。
📖 参考