李玉强团队JACS封面:CrystalX利用深度学习破解单晶解析难题
明确晶体材料的原子构型,是洞察物质特性、核实化学合成成效以及催生新材料的关键。长久以来,单晶X射线衍射技术一直是完成此任务的核心实验手段,它曾助力解析出核酸、青霉素、维生素B12及胰岛素等众多里程碑式结构。伴随着自动化合成、高通量结晶及自驱动实验室的兴起,研究者面临的不再仅仅是少数“棘手结构”,而是每日涌现的大量晶体样本;因此,结构解析工作正从依赖专家经验的个案处理,演变为制约高通量化学发现效率的主要瓶颈。虽然现有的晶体学软件能较好地将衍射数据转化为初步电子密度图,但如何从粗糙的电子密度中精准辨识元素种类、填补氢原子,并构建出化学与晶体学上均合理的全原子模型,通常仍需晶体学专家反复甄别、修正与校验。
近期,上海人工智能实验室、上海创智学院与上海交通大学的联合课题组提出了解决这一痛点的深度学习方案——CrystalX。其旨在通过几何深度学习,自动实现从粗糙电子密度到全原子结构的解析,将以往需人工介入的结构解释过程缩减至秒级。该研究的核心策略,是将晶体结构解析中的“电子密度解释”难题转化为三维点云上的原子识别任务。在传统流程中,SHELXT等软件能基于X射线衍射数据完成初步定相并生成电子密度峰图;而CrystalX则在此基础上,进一步甄别每个峰所对应的非氢原子类型,并预测各重原子应连接的氢原子数。下图展示了这一两阶段神经网络流程:第一阶段利用等变Transformer建模电子密度峰间的三维交互以生成非氢原子骨架;第二阶段则在骨架上进一步建模原子交互,补全氢原子,最终产出全原子结构。
相较于单纯依赖电子密度强弱,CrystalX更侧重于捕捉原子间的几何关联,涵盖距离、角度、二面角及分子间相互作用等。这对于区分原子序数相近、电子密度相似的C、N、O、F等元素尤为关键。鉴于氢原子在常规X射线电子密度图中常不显眼,该研究并未直接“搜寻”氢原子峰,而是预测每个非氢原子应连接的氢原子数;同时,模型引入了晶体对称性和周期性,在3.2 Å范围内考量邻近原子,以捕获氢键等环境信息。研究表明,联合建模分子内与分子间相互作用,相比仅使用分子内信息,性能提升了超过7%。
为检验模型效能,研究团队依托晶体学开放数据库(COD)构建了大规模真实实验数据集,包含51,334组X射线衍射数据,涵盖有机、金属有机及无机晶体,涉及83种元素和86个空间群。尤为重要的是,研究采用了严格的时间划分策略:2018年前发表的结构用于训练,2018至2024年发表的8,834个结构作为测试集。这种设定避免了模型在测试阶段接触相似结构,更贴合真实部署时面对全新化合物的环境。
测试结果表明,CrystalX在全测试集上对非氢原子的识别准确率高达99.71%,氢原子判断准确率为99.42%。若采用更严格的“结构完整性”标准——即晶体结构中所有原子均需判断正确——则非氢原子的结构级准确率为94.17%,氢原子为91.79%。此外,模型还能输出可靠的预测概率;利用这一不确定性信息,仅对最不确定的原子进行一次候选修正,便能将非氢原子和氢原子的结构级准确率分别提升至95.80%和94.35%。
在与现有自动化晶体学工具的基准比对中,研究选取了Olex2全自动流程作为主要基线:由SHELXT完成定相及初始非氢原子指认,再经SHELXL精修,并利用Olex2的hadd命令自动添加氢原子。由于全过程无人工介入,该设置能较好代表当前常规晶体结构解析的自动化水平。结果显示,在完整COD测试集上,SHELXT对单个非氢原子的识别准确率为94.81%,但一旦标准提升至“结构中所有非氢原子均需正确识别”,其结构级完整性准确率便跌至46.26%。反观CrystalX,该指标提升至94.17%,增幅达47.91个百分点,近乎实现翻倍。在更棘手的场景下,差距更为显著:低信噪比数据子集中,Olex2仅正确解析2/37个结构,而CrystalX解析24/37个,其中22个通过checkCIF的A/B类检查;大结构子集中,Olex2无正确结果,CrystalX则解析22/43个,其中20个通过checkCIF的A/B类检查。特别值得一提的是,面对多达370个非氢原子的庞大有机金属结构,CrystalX依然实现了秒级完全正确的自动解析。上述结果证实,在低质量衍射数据和大型复杂结构这类传统自动化流程易失效的场景中,CrystalX展现出更强的鲁棒性与实用性。下图汇总了这些结果。
除大规模回顾性测试外,研究团队还将CrystalX接入日常晶体学实验流程,以检验其在真实新化合物解析中的实用性。对比对象为全自动结构解析系统AutoChem(最新版本ac7)。与COD等公共数据库的批量测试不同,AutoChem的运行依赖CrysAlisPro处理流程导出的仪器与采集元数据,这些信息通常仅存在于真实实验原始数据包中,不会随已发表CIF文件保存于公共库。因此,研究无法在COD测试集上对AutoChem进行大规模回顾性评估,而是转向更贴近实际部署的前瞻性对比实验。研究选取了两个新发现化合物,并补充了一个近期发表的可运行AutoChem的案例,比较两种方法在无人工干预下的端到端解析能力。结果显示,CrystalX在三个案例中均成功完成全自动结构解析;其中两个新化合物的CIF文件无CheckCIF A/B级警报,并经晶体学专家独立精修确认。相比之下,AutoChem在多种配置下最多仅正确解析一个结构。在速度上,CrystalX对两个新化合物的总运行时间约15秒,优于AutoChem的20至80秒;在近期文献案例中,AutoChem虽耗时约30秒仍给出错误结果,而CrystalX则在更短时间内完成了正确解析。这组真实实验对比表明,CrystalX的优势不仅限于公共数据库的统计指标,更已具备嵌入日常晶体学工作流、支撑新化合物自动结构解析的实际部署潜力。
除速度与准确率外,论文还探究了模型是否真正习得了有意义的晶体学规律。研究团队利用Attention Rollout分析等变Transformer的注意力分布,并通过t-SNE可视化模型中间表征。论文图3显示,CrystalX在判断元素类型时关注局部几何环境与电子密度峰的相互作用;不同元素及氢原子类型在表征空间中也形成清晰聚类。这表明模型并非简单记忆训练数据,而是在一定程度上习得了与化学环境相关的几何模式。
一个颇具亮点的发现是,CrystalX还能反向揭示已发表晶体结构中的人工解释错误。研究团队在测试集中筛查了1,559个发表在JCR Q1期刊的结构,自动筛选出10个可疑案例,经人工复核确认其中9个存在专家解释错误。这些错误涵盖相近电子密度原子的误判、氢原子位置错误及缺失。论文图4展示了三个代表性案例,显示模型修正后结构的R1指标有所改善。值得注意的是,部分错误未触发CheckCIF的A/B级警报,表明它们可能逃过了常规验证与同行评审流程。
研究也坦诚指出了CrystalX当前方法的局限。现阶段,CrystalX主要面向有序晶体结构的常规全原子解析,尚未覆盖晶体学无序这一更复杂的长尾场景。原因在于,无序结构解析通常非一次性完成原子类型判断或氢原子补全,而是围绕残余电子密度、占有率、约束限制、化学合理性及验证反馈循环的多步过程。对晶体学专家而言,处理无序结构犹如解综合难题:需不断提出假设、精修、观察残余电子密度与CheckCIF反馈并修正模型。相比之下,公开数据库仅保存最终精修结果,缺乏专家调整模型及残余电子密度变化的中间轨迹,难以提供处理无序结构所需的逐步监督信号。因此,研究暂未纳入无序结构。但作者指出,这不代表技术路线无法拓展。本质上是残余电子密度的解释,几何深度学习在此潜力巨大。此外,无序解析有望与智能体AI、强化学习深度融合。由于无序解析是复杂求解与决策过程,模型有望在与晶体学软件的持续交互中,逐步内化晶体学家在“解释—精修—验证”迭代中的决策机制。
总体而言,CrystalX的意义不仅在于提供了单晶结构解析的新深度学习工具,更在于展示了区别于传统自动化流程的新范式:不再主要依赖人工设计的规则、经验阈值和启发式判断,而是从大规模真实实验衍射数据中学习粗略电子密度与原子结构的复杂几何关系,并据此直接推断全原子结构。相较于传统的基于规则的方法,这一数据驱动的几何深度学习框架展现出深刻优越性。它有望从根本上改变当前晶体学分析对专家交互式操作的高度依赖,成为自驱动实验室和高通量化学发现流程中的关键自动化模块。
目前,CrystalX已全面开放并完成多平台部署。项目代码已在GitHub开源;模型权重已发布至Hugging Face。同时,CrystalX已上线国家高等教育智慧教育平台、Migo觅果化学助手及“言普•晶析”,实现了最小端到端工作流的网页化部署。此外,CrystalX可自然接入现有晶体学软件生态,具备良好可扩展性与可集成性,可作为实用工具服务于实际结构解析与精修流程。
CrystalX: High-Accuracy Crystal Structure Analysis Using Deep Learning
Kaipeng Zheng, Weiran Huang*, Wanli Ouyang, Han-Sen Zhong*, Yuqiang Li*
J. Am. Chem. Soc.,2026, DOI: 10.1021/jacs.5c21832
研究团队介绍
李玉强博士,本科毕业于中南大学,博士毕业于武汉大学,师从阴国印教授。现任上海人工智能实验室AI for Science中心联合负责人及物质科学团队负责人,上海创智学院全时导师,主要从事人工智能化学、材料学、谱学研究,并领导开发了ChemLLM系列模型。其获得上海市东方英才计划青年项目资助,主持新一代人工智能国家科技重大专项课题(面向材料设计的科研智能方法研究),目前以通讯作者身份在Nature Catalysis、J. Am. Chem. Soc.、Angew. Chem. Int. Ed.、CCS Chemistry、科学通报、ICLR、CVPR、ACL、AAAI等国内外顶级期刊及会议发表论文20余篇,并担任《Science Bulletin》、《科学通报》、《Chinese Chemical Letters》、《MGE Advances》等期刊青年编委。
黄维然博士,现任上海交通大学计算机学院副教授、博导,上海创智学院全时导师,兼任浦江上海人工智能实验室科研顾问。入选2024年“微软亚洲研究院铸星计划”学者,获2024年ACM上海地区新星奖。其长期深耕人工智能理论与算法,累计发表论文37篇;获授权专利10项,并作为主要起草人撰写团体标准1项。主持国家自然科学基金青年科学基金、上海市“通用人工智能大模型”基础研究专项,同时承担腾讯、字节、阿里、百度、微软等头部企业的横向科研合作。
https://www.x-mol.com/university/faculty/402864
钟翰森,上海奇算光启信息技术有限公司创始人,毕业于中国科学技术大学,国家级青年人才,从事光子量子计算与人工智能交叉研究。在中科大期间,作为第一作者研制出全球首个光量子计算机“九章”,论文发表于Science,实现量子计算优越性里程碑,入选“中国十大科技进展”。此后,在上海人工智能实验室开展人工智能算法研究,开发出人工智能驱动的裸眼3D显示算法,相关成果于Nature发表;人工智能赋能原子阵列排列,入选美国物理学会评选年度物理学10大进展。2024年创立奇算光启公司,瞄准AI算力革命,研发高性能光子计算芯片,突破传统芯片能效瓶颈,为人工智能大模型构建全新硬件基座。