标签

上海AI实验室发布NMRTrans:从实验核磁谱图逆向推导分子结构,提升解析精准度

发布时间:2026-06-23 15:52阅读:2

核磁共振(NMR)谱学是分子结构鉴定中常用的手段。目前,人工智能辅助的NMR解析面临模拟与实验数据不一致、缺乏物理知识引导两大瓶颈,导致分析结果精度不足。

为此,上海人工智能实验室(上海AI实验室)推出了NMRTrans——一种针对真实实验NMR谱图的分子结构解析新方法。其核心特点包括:

● 弥合数据差异:突破海量文献提取的难点,建立了包含约24万条优质样本的大规模真实实验谱图基准集合SA-MolNMR-SI-240K,使模型直接掌握真实科研环境中的物理分布,摆脱对理想化模拟数据的依赖;

● 重构物理先验:打破传统强制序列建模的限制,首次运用Set Transformer架构,将一维NMR谱峰还原为其物理本质的“无序集合”,并实现¹H NMR、¹³C NMR与分子式的多模态联合推理;

在真实NMR结构鉴定任务中,NMRTrans展现出强大的科学推理性能,Top-10序列正确率达到61.15%,比现有最优基线提升了17.82个百分点。

📚数据开源:

https://huggingface.co/datasets/SpectrumWorld/SA-MolNMR-SI-240K

⭐代码仓库:

https://github.com/little1d/NMRTrans

🧾ArXiv:

https://arxiv.org/pdf/2602.10158

该成果已被KDD 2026接收,论文第一作者为上海人工智能实验室见习研究员杨刘佳、杨卓、谢嘉庆和工程师王雨滨。

如何使AI真正掌握“化学家级别”的谱图解读与推理能力?

尽管大模型为谱学智能分析打开了新方向,但现有AI辅助NMR解析仍面对两大深层科学难题:

● 一是模拟与实验数据的鸿沟。

真实实验谱图往往散见于文献的补充资料中,格式多样且提取困难,导致以往许多模型只能依靠理想化的计算谱图进行训练。然而,溶剂效应、杂质、仪器噪声等实际物理因素会明显影响谱峰表现,使得模型在真实实验条件下的泛化能力急剧下降。

● 二是物理先验缺失导致精度受限。

主流方法常将NMR谱峰强行编码为类似自然语言的有序序列。但从物理本质来看,谱峰的排列次序本身并不包含分子结构信息,真正关键的是其化学特性(如化学位移、裂分模式、积分强度等)。违背NMR谱峰作为无序物理集合的本质,严重制约了模型的深层科学推理能力。

因此,NMRTrans的目标不只是提出一个新的单点模型,而是要解答一个更根本的问题:如何让AI模型遵循NMR谱图自身的物理规律,直接从真实实验数据中习得结构解析能力?

为突破上述限制,推动AI解谱从“黑盒拟合”向“物理驱动的科学推理”转变,上海人工智能实验室推出了NMRTrans——一个面向真实实验NMR谱图的分子结构解析新范式。

该工作不仅解决了海量文献挖掘的难题,建立了包含约24万条高质量样本的大规模实验谱图基准数据集SA-MolNMR-SI-240K;更在模型层面突破传统框架,首次采用Set Transformer架构,将NMR谱峰还原为符合其物理本质的“无序集合”,并实现¹H NMR、¹³C NMR与分子式的多模态协同推理。

实验显示,NMRTrans在真实实验NMR结构解析任务中表现出卓越的科学推理能力,Top-10序列正确率高达61.15%,较现有最强基线大幅提升17.82个百分点。

这不仅意味着AI辅助解谱正式从“模拟环境”跨入“真实实验场景”,更证实了尊重科学对象的物理先验,是突破人工智能辅助化学科学发现能力上限的关键路径。

高质量实验数据是AI模型进入真实科研环境的基础。为此,研究团队从化学文献的补充材料中系统挖掘实验谱学记录,构建了NMRSpecCorpus——涵盖2013年至2025年的化学文献,共处理6.2万份文档,获得214万余条谱学记录,覆盖超过68万个独立分子。其中不仅包括一维¹H NMR和¹³C NMR,也包含质谱、红外谱等其他谱学信息,为后续多模态分子结构预测奠定了数据基础。

分子和NMR谱的分布(根据年份)

不同类型的NMR谱分布

NMRSpec数据构建流程:从PDF文献解析、抽取、标准化与验证在结构解析任务中,团队进一步筛选出同时具有实验¹H NMR和¹³C NMR的有机分子样本,构建了约24万条样本的高质量基准数据集SA-MolNMR-SI-240K,其中约19万条用于训练,2.5万条用于验证,2.5万条用于测试。人工验证结果显示,该数据集的化合物层面准确率达到96.2%,谱图层面准确率达到94.1%。

NMRSpec数据构建流程:从PDF文献解析、抽取、标准化与验证

这意味着,NMRTrans并非主要依赖理想化的模拟谱图训练,而是直接面向更复杂、更贴近真实科研场景的实验谱图数据。

模型架构

将NMR谱峰视为“集合”来解读

NMRTrans的核心创新在于尊重NMR谱图的物理本质。

自然语言有明确的词序,“我爱化学”和“化学爱我”含义不同;但NMR谱峰的输入顺序本身没有这样的语义。因此,NMRTrans没有把谱峰强行编码成带位置顺序的token序列,而是将¹H NMR和¹³C NMR谱峰分别表示为无序集合,并使用Set Transformer进行编码。

模型通过Induced Set Attention Block(ISAB)学习谱峰之间的全局关系;再通过Pooling by Multihead Attention(PMA)聚合谱图层面的全局表示。在¹H NMR中,模型利用化学位移、积分、裂分模式和J耦合常数等信息刻画局部氢环境;在¹³C NMR中,模型主要利用碳谱化学位移补充碳骨架信息。随后,模型将¹H NMR、¹³C NMR以及可选的分子式信息进行融合,并由T5解码器生成候选SMILES分子结构。

NMRTrans整体框架:Set Transformer编码¹H/¹³C NMR峰集合,并生成SMILES候选结构

这一设计的核心思想是:NMRTrans不是简单把谱图“翻译”成分子,而是让模型按照NMR谱图自身的物理结构进行学习。

多模态融合

¹H NMR、¹³C NMR与分子式协同约束

在实际结构解析中,单一谱图往往不足以唯一确定分子结构。¹H NMR能提供丰富的氢环境和局部连接线索,¹³C NMR能补充分子碳骨架信息,而分子式可以从全局上约束原子组成,排除大量不可能的候选结构。

NMRTrans将这些信息统一纳入模型框架中:¹H NMR和¹³C NMR分别经过独立的Set Transformer编码器,再与分子式表示进行融合,最终共同约束SMILES生成过程。

不同模态的消融实验

消融实验验证了这一设计的有效性:完整输入¹H NMR + ¹³C NMR + 分子式时,NMRTrans达到最高Top-1准确率42.81%;相比单一谱图输入,多模态融合显著提升了结构恢复能力。分子式约束也能带来稳定增益,有助于减少组成上不可能的结构候选。

实验评测

在真实实验场景中的领先表现

为了评估模型性能,研究团队将NMRTrans与多个代表性方法进行对比,包括基于生成式Transformer的NMR2Struct、NMRMind,以及基于检索与优化范式的NMR-Solver。

在NMRSpec的实验¹H和¹³C NMR测试集上,NMRTrans在Top-1、Top-5、Top-10序列准确率上分别达到42.81%、58.22%、61.15%;相比强基线NMRMind的37.33%、41.96%、43.33%,NMRTrans在不同Top-k设置下均取得更高准确率,Top-10序列准确率提升17.82个百分点。

NMRTrans与代表性基线方法在实验NMR结构解析任务上的性能对比

NMRTrans与代表性基线方法在实验NMR结构解析任务上的性能对比除了完整SMILES是否完全匹配,论文还评估了词元准确率和结构相似度指标,用于衡量预测结构与真实结构之间的局部一致性和拓扑相似度。结果显示,NMRTrans在Top-k候选结构列表中不仅更容易给出正确答案,也能生成与真实结构更相近的候选分子。

这对于实际科研场景尤其重要。结构解析并不总是要求模型一次性给出唯一答案,更常见的需求是:在复杂谱图条件下,为研究人员提供一组高质量候选结构,帮助专家快速缩小验证范围。

泛化能力

面向外部分布的零样本验证

为了进一步验证模型是否真正学习到了NMR谱图背后的结构规律,研究团队还在NMRBank和MSD等外部分布数据集上进行了零样本泛化评估。

NMRTrans在NMRBank上的泛化表现良好

NMRTrans在MSD上的泛化表现良好

结果显示,即使面对与训练集分布不同的分子结构和实验条件,NMRTrans仍然在序列准确率和结构相似度上保持优势。在MSD数据集上,NMRTrans在小分子和中等规模分子子集上均取得更高准确率,说明其基于无序谱峰集合的编码方式具有更好的跨数据集泛化能力。

案例分析

复杂场景下的结构保真度

案例研究显示,NMRTrans在多种复杂场景下均能保持良好表现:

● 长脂肪链:尽管在0.5–2.0 ppm区域存在严重的谱图重叠,仍能区分特定的链长;

● 杂环/多环体系:能够捕捉由杂原子位置引起的微小化学位移变化;

● 较大分子(≥ 40个原子):尽管谱图拥挤程度加剧,仍能保持结构保真度。

定位与展望

从“自动替代”走向“智能辅助”

需要强调的是,NMRTrans并不是要完全替代完整的谱学分析流程。

常规一维¹H/¹³C NMR谱图本身存在内在歧义。构造异构体、区域异构体和立体异构体可能产生高度相似的谱图,尤其在缺少HSQC等二维相关谱信息时,仅凭一维NMR很难在所有情况下唯一确定结构。因此,论文也明确指出,NMRTrans更适合作为专家辅助的候选结构生成系统,而不是完全自主的结构解析替代方案。

换句话说,NMRTrans的价值在于:让AI承担高通量筛选和候选生成工作,帮助研究人员从庞大的结构空间中更快定位可能答案,再结合化学知识、其他谱学信息和实验验证完成最终判断。

未来,随着更多实验谱学数据、二维NMR信息和多模态分子表征数据的加入,AI有望进一步参与结构解析、反应发现、药物设计和自动化实验闭环,为化学研究提供更高效、更可靠的智能工具。

NMRTrans传送门:

📚 数据下载

https://huggingface.co/datasets/SpectrumWorld/SA-MolNMR-SI-240K

⭐ 代码仓库

https://github.com/little1d/NMRTrans

🧾 ArXiv

https://arxiv.org/pdf/2602.10158

END

它来了!MinerU 2.5-Pro正式上线SaaS端,解锁Office全能解析新战力

2026-05-13

MinerU × 清华OpenMAIC多智能体课堂:让你的PDF文档自动变成开口的互动课堂

2026-04-24

画图到抓狂?NanaDraw AI工具帮你5分钟搞定论文流程图!

2026-04-21

跳出SOTA内卷,我们发了个“好用至上”的文档解析模型

2026-04-10