标签

AI赋能分子生成:方法、数据与应用

发布时间:2026-05-21 11:37来源:微信阅读:7

引用格式:许黄超,张宝花,刘倩,金钟. 基于人工智能的分子生成策略及数据资源综述[J]. 数据与计算发展前沿(中英文), 2026, 8(2): 184-203.

DOI:10.11871/jfdc.issn.2096-742X.2026.02.014.

文章亮点

本文全面梳理了由AI技术支持的小分子创造技术及相关核心数据资源,从“数据-算法-应用”全链条视角梳理了该领域的技术演变。重点探讨了变分自编码器、生成对抗网络、Transformer、扩散模型及大语言模型等主流生成架构,并结合靶点引导、片段组合与语言建模等前沿策略,分析了各技术路线的核心机制与适用场景。通过整合国内外代表性研究成果,本文揭示了多模态融合与跨模态引导生成正成为推动分子设计智能化转型的关键趋势,为研究者提供了系统性的理论框架和方法指引。

选题依据

在当前药物开发领域,周期长、成本高、成功率低等问题严重制约了新药研发的效率。据统计,AI辅助药物研发项目已从2015年的1个快速增长至2023年的67个,AI发现的药物在Ⅰ期临床成功率已经远超传统方法。小分子药物设计需从庞大化学空间中筛选候选分子,传统高通量筛选受限于化合物库规模与实验成本。在此背景下,系统梳理AI驱动的分子生成方法及支撑数据资源,对于理解领域现状、突破技术瓶颈、加速新药发现具有重要的科学价值与实践意义。

研究方法

本文围绕数据基础与技术进步两条主线展开综述:

(1)数据资源方面:将分子数据集划分为小分子数据(ZINC、ChEMBL、PubChem等)、蛋白质与复合物数据(RCSB、AlphaFold DB、PDBBind等)、基准评估数据(MoleculeNet、TDC、BindingDB等)三大类,系统分析其规模、格式与应用场景。

(2)生成技术层面:沿“无约束生成-条件生成-跨模态融合”的技术发展脉络演进:

无约束生成:涵盖基于SMILES序列的Transformer/RNN方法、基于图神经网络的分子图构建,以及GeoDiff/EDM等三维等变扩散模型;

条件生成:包括靶点结构引导的SurfGen/ResGen/DiffSBDD等基于结构的药物设计方法、基于药效团/片段的组合设计策略,以及多目标帕累托优化方法;

跨模态融合:探讨大语言模型(GPT-4、Claude、ChemGPT等)在分子设计中的应用,以及图像引导、多智能体协作等新兴范式。

研究内容与数据

本文深入剖析了AI分子生成的核心技术及关键数据资源:

分子表示方法:从一维序列(SMILES、分子指纹、预训练特征等)、二维图示(GNN、AttentiveFP等)到三维几何描述(E(3)-GNN、UniMol等),再到跨模态对比学习,呈现了表征技术由简至精的演化路径。

生成模型架构:对比了VAE、GAN、标准化流、扩散模型及大语言模型在小分子生成领域的技术特性与生成品质。

评估指标:涉及类药性评估、合成可行性、分子对接、ADMET预测及结构合理性评价(PoseBuster)等多维度评估体系。

主要结论

研究显示,AI驱动的小分子生成技术正逐步从单一结构生成转向多属性协同优化、三维结构约束及人机交互式设计方向。扩散模型在三维分子构建中优势明显,大语言模型通过上下文学习实现了“即插即用”的分子设计新范式。数据资源方面,构建AI-ready的高质量数据集、提升模型可控性与泛化能力、完善多维度综合评价体系将是未来发展的重要方向。尽管面临物理化学约束建模、数据标准化与评价体系完善等挑战,AI分子生成技术正加速推动药物发现从经验驱动向智能设计转型。

作者简介

许黄超

中国科学院计算机网络信息中心、中国科学院大学,博士研究生,主要研究AI辅助药物设计。

张宝花

中国科学院计算机网络信息中心高级工程师,主要研究超智融合技术及在药物等领域应用。

金钟

中国科学院计算机网络信息中心研究员,主要研究生物医学计算与并行软件实现。

相关文章推荐

《数据与计算发展前沿(中英文)》2026年第2期目录

冰冻圈大数据挖掘分析关键技术及应用专刊前言

冰冻圈“大数据+AI+模型”耦合研究范式研究

基于时空元胞的冰冻圈多源异构数据融合与智能管控

基于自适应语义连接和感知注意力的沙漠分割技术

基于多智能体协同的高寒山区道路结冰数据工程预警

基于频域引导特征的泥石流灾后遥感影像语义分割网络构建研究

面向数据驱动建模的冰川跃动可探测特征分析

北极航道环境数字化服务及应用研究

基于SDO/HMI观测图像的相对太阳黑子数自动计算方法研究

基于多层次情感与语义特征融合的虚假新闻检测方法

探索基于3D变换的后处理对3D对抗性点云迁移性的影响

开源社区AI智能化运维探索

基于多尺度时空图融合的警情预测模型

基于多模型协同与动态加权裁决的农业科学元数据智能审核系统框架

点击左下角,阅读原文