上海AI实验室发布NMRTrans：从实验核磁谱图逆向推导分子结构，提升解析精准度

发布时间：2026-06-23 15:52阅读：2

核磁共振（NMR）谱学是分子结构鉴定中常用的手段。目前，人工智能辅助的NMR解析面临模拟与实验数据不一致、缺乏物理知识引导两大瓶颈，导致分析结果精度不足。

为此，上海人工智能实验室（上海AI实验室）推出了NMRTrans——一种针对真实实验NMR谱图的分子结构解析新方法。其核心特点包括：

● 弥合数据差异：突破海量文献提取的难点，建立了包含约24万条优质样本的大规模真实实验谱图基准集合SA-MolNMR-SI-240K，使模型直接掌握真实科研环境中的物理分布，摆脱对理想化模拟数据的依赖；

● 重构物理先验：打破传统强制序列建模的限制，首次运用Set Transformer架构，将一维NMR谱峰还原为其物理本质的“无序集合”，并实现¹H NMR、¹³C NMR与分子式的多模态联合推理；

在真实NMR结构鉴定任务中，NMRTrans展现出强大的科学推理性能，Top-10序列正确率达到61.15%，比现有最优基线提升了17.82个百分点。

📚数据开源：

https://huggingface.co/datasets/SpectrumWorld/SA-MolNMR-SI-240K

⭐代码仓库：

https://github.com/little1d/NMRTrans

🧾ArXiv：

https://arxiv.org/pdf/2602.10158

该成果已被KDD 2026接收，论文第一作者为上海人工智能实验室见习研究员杨刘佳、杨卓、谢嘉庆和工程师王雨滨。

如何使AI真正掌握“化学家级别”的谱图解读与推理能力？

尽管大模型为谱学智能分析打开了新方向，但现有AI辅助NMR解析仍面对两大深层科学难题：

● 一是模拟与实验数据的鸿沟。

真实实验谱图往往散见于文献的补充资料中，格式多样且提取困难，导致以往许多模型只能依靠理想化的计算谱图进行训练。然而，溶剂效应、杂质、仪器噪声等实际物理因素会明显影响谱峰表现，使得模型在真实实验条件下的泛化能力急剧下降。

● 二是物理先验缺失导致精度受限。

主流方法常将NMR谱峰强行编码为类似自然语言的有序序列。但从物理本质来看，谱峰的排列次序本身并不包含分子结构信息，真正关键的是其化学特性（如化学位移、裂分模式、积分强度等）。违背NMR谱峰作为无序物理集合的本质，严重制约了模型的深层科学推理能力。

因此，NMRTrans的目标不只是提出一个新的单点模型，而是要解答一个更根本的问题：如何让AI模型遵循NMR谱图自身的物理规律，直接从真实实验数据中习得结构解析能力？

为突破上述限制，推动AI解谱从“黑盒拟合”向“物理驱动的科学推理”转变，上海人工智能实验室推出了NMRTrans——一个面向真实实验NMR谱图的分子结构解析新范式。

该工作不仅解决了海量文献挖掘的难题，建立了包含约24万条高质量样本的大规模实验谱图基准数据集SA-MolNMR-SI-240K；更在模型层面突破传统框架，首次采用Set Transformer架构，将NMR谱峰还原为符合其物理本质的“无序集合”，并实现¹H NMR、¹³C NMR与分子式的多模态协同推理。

实验显示，NMRTrans在真实实验NMR结构解析任务中表现出卓越的科学推理能力，Top-10序列正确率高达61.15%，较现有最强基线大幅提升17.82个百分点。

这不仅意味着AI辅助解谱正式从“模拟环境”跨入“真实实验场景”，更证实了尊重科学对象的物理先验，是突破人工智能辅助化学科学发现能力上限的关键路径。

高质量实验数据是AI模型进入真实科研环境的基础。为此，研究团队从化学文献的补充材料中系统挖掘实验谱学记录，构建了NMRSpecCorpus——涵盖2013年至2025年的化学文献，共处理6.2万份文档，获得214万余条谱学记录，覆盖超过68万个独立分子。其中不仅包括一维¹H NMR和¹³C NMR，也包含质谱、红外谱等其他谱学信息，为后续多模态分子结构预测奠定了数据基础。

分子和NMR谱的分布（根据年份）

不同类型的NMR谱分布

NMRSpec数据构建流程：从PDF文献解析、抽取、标准化与验证在结构解析任务中，团队进一步筛选出同时具有实验¹H NMR和¹³C NMR的有机分子样本，构建了约24万条样本的高质量基准数据集SA-MolNMR-SI-240K，其中约19万条用于训练，2.5万条用于验证，2.5万条用于测试。人工验证结果显示，该数据集的化合物层面准确率达到96.2%，谱图层面准确率达到94.1%。

NMRSpec数据构建流程：从PDF文献解析、抽取、标准化与验证

这意味着，NMRTrans并非主要依赖理想化的模拟谱图训练，而是直接面向更复杂、更贴近真实科研场景的实验谱图数据。

模型架构

将NMR谱峰视为“集合”来解读

NMRTrans的核心创新在于尊重NMR谱图的物理本质。

自然语言有明确的词序，“我爱化学”和“化学爱我”含义不同；但NMR谱峰的输入顺序本身没有这样的语义。因此，NMRTrans没有把谱峰强行编码成带位置顺序的token序列，而是将¹H NMR和¹³C NMR谱峰分别表示为无序集合，并使用Set Transformer进行编码。

模型通过Induced Set Attention Block（ISAB）学习谱峰之间的全局关系；再通过Pooling by Multihead Attention（PMA）聚合谱图层面的全局表示。在¹H NMR中，模型利用化学位移、积分、裂分模式和J耦合常数等信息刻画局部氢环境；在¹³C NMR中，模型主要利用碳谱化学位移补充碳骨架信息。随后，模型将¹H NMR、¹³C NMR以及可选的分子式信息进行融合，并由T5解码器生成候选SMILES分子结构。

NMRTrans整体框架：Set Transformer编码¹H/¹³C NMR峰集合，并生成SMILES候选结构

这一设计的核心思想是：NMRTrans不是简单把谱图“翻译”成分子，而是让模型按照NMR谱图自身的物理结构进行学习。

多模态融合

¹H NMR、¹³C NMR与分子式协同约束

在实际结构解析中，单一谱图往往不足以唯一确定分子结构。¹H NMR能提供丰富的氢环境和局部连接线索，¹³C NMR能补充分子碳骨架信息，而分子式可以从全局上约束原子组成，排除大量不可能的候选结构。

NMRTrans将这些信息统一纳入模型框架中：¹H NMR和¹³C NMR分别经过独立的Set Transformer编码器，再与分子式表示进行融合，最终共同约束SMILES生成过程。

不同模态的消融实验

消融实验验证了这一设计的有效性：完整输入¹H NMR + ¹³C NMR + 分子式时，NMRTrans达到最高Top-1准确率42.81%；相比单一谱图输入，多模态融合显著提升了结构恢复能力。分子式约束也能带来稳定增益，有助于减少组成上不可能的结构候选。

实验评测

在真实实验场景中的领先表现

为了评估模型性能，研究团队将NMRTrans与多个代表性方法进行对比，包括基于生成式Transformer的NMR2Struct、NMRMind，以及基于检索与优化范式的NMR-Solver。

在NMRSpec的实验¹H和¹³C NMR测试集上，NMRTrans在Top-1、Top-5、Top-10序列准确率上分别达到42.81%、58.22%、61.15%；相比强基线NMRMind的37.33%、41.96%、43.33%，NMRTrans在不同Top-k设置下均取得更高准确率，Top-10序列准确率提升17.82个百分点。

NMRTrans与代表性基线方法在实验NMR结构解析任务上的性能对比

NMRTrans与代表性基线方法在实验NMR结构解析任务上的性能对比除了完整SMILES是否完全匹配，论文还评估了词元准确率和结构相似度指标，用于衡量预测结构与真实结构之间的局部一致性和拓扑相似度。结果显示，NMRTrans在Top-k候选结构列表中不仅更容易给出正确答案，也能生成与真实结构更相近的候选分子。

这对于实际科研场景尤其重要。结构解析并不总是要求模型一次性给出唯一答案，更常见的需求是：在复杂谱图条件下，为研究人员提供一组高质量候选结构，帮助专家快速缩小验证范围。

泛化能力

面向外部分布的零样本验证

为了进一步验证模型是否真正学习到了NMR谱图背后的结构规律，研究团队还在NMRBank和MSD等外部分布数据集上进行了零样本泛化评估。

NMRTrans在NMRBank上的泛化表现良好

NMRTrans在MSD上的泛化表现良好

结果显示，即使面对与训练集分布不同的分子结构和实验条件，NMRTrans仍然在序列准确率和结构相似度上保持优势。在MSD数据集上，NMRTrans在小分子和中等规模分子子集上均取得更高准确率，说明其基于无序谱峰集合的编码方式具有更好的跨数据集泛化能力。

案例分析

复杂场景下的结构保真度

案例研究显示，NMRTrans在多种复杂场景下均能保持良好表现：

● 长脂肪链：尽管在0.5–2.0 ppm区域存在严重的谱图重叠，仍能区分特定的链长；

● 杂环/多环体系：能够捕捉由杂原子位置引起的微小化学位移变化；

● 较大分子（≥ 40个原子）：尽管谱图拥挤程度加剧，仍能保持结构保真度。

定位与展望

从“自动替代”走向“智能辅助”

需要强调的是，NMRTrans并不是要完全替代完整的谱学分析流程。

常规一维¹H/¹³C NMR谱图本身存在内在歧义。构造异构体、区域异构体和立体异构体可能产生高度相似的谱图，尤其在缺少HSQC等二维相关谱信息时，仅凭一维NMR很难在所有情况下唯一确定结构。因此，论文也明确指出，NMRTrans更适合作为专家辅助的候选结构生成系统，而不是完全自主的结构解析替代方案。

换句话说，NMRTrans的价值在于：让AI承担高通量筛选和候选生成工作，帮助研究人员从庞大的结构空间中更快定位可能答案，再结合化学知识、其他谱学信息和实验验证完成最终判断。

未来，随着更多实验谱学数据、二维NMR信息和多模态分子表征数据的加入，AI有望进一步参与结构解析、反应发现、药物设计和自动化实验闭环，为化学研究提供更高效、更可靠的智能工具。

NMRTrans传送门：

📚 数据下载

https://huggingface.co/datasets/SpectrumWorld/SA-MolNMR-SI-240K

⭐ 代码仓库

https://github.com/little1d/NMRTrans

🧾 ArXiv

https://arxiv.org/pdf/2602.10158

END

它来了！MinerU 2.5-Pro正式上线SaaS端，解锁Office全能解析新战力

2026-05-13

MinerU × 清华OpenMAIC多智能体课堂：让你的PDF文档自动变成开口的互动课堂

2026-04-24

画图到抓狂？NanaDraw AI工具帮你5分钟搞定论文流程图！

2026-04-21

跳出SOTA内卷，我们发了个“好用至上”的文档解析模型

2026-04-10

← 上一篇：别再只用AI写文案了!2026年的它早已深入各行各业下一篇：AI时代生存法则:不是机器淘汰人,而是适应力决定去留 →