标签

上海AI实验室联合中科大发布SpectrumWorld,打造谱学智能新基建

发布时间:2026-05-30 04:10来源:微信阅读:6

谱学作为鉴定、表征、测量及预测物质结构的“基石工具”,在新材料研发、药物筛选和生命科学领域扮演着不可或缺的角色。近年来,人工智能大模型为谱学数据的智能化分析开辟了全新路径,但该领域研究长期受困于四大核心难题:高质量实验数据匮乏且分布不均、计算光谱与真实实验环境存在巨大域间差距、多种光谱模态(如IR、NMR、MS)难以统一对齐,以及缺乏标准化基准导致模型评估碎片化。这些问题严重阻碍了谱学智能从“单点突破”向“系统创新”的跨越。

为突破上述瓶颈,上海人工智能实验室联合中国科学技术大学等机构,共同推出了谱学智能研究平台 SpectrumWorld。该平台旨在打通“数据生成→模型评测→能力迭代”的全流程,提供可复现、可对齐的 AI 基础设施,全面助力谱学智能迈向系统级创新。

研究人员利用 SpectrumWorld 对 23 个大模型进行了全面评测。结果显示:当前模型在信号层的基础感知能力已趋于成熟(任务平均准确率达 66.96%),但在生成层任务上准确率骤降至 10.07%,逆向推理与分子生成仍是主要短板。这一“能力断层”表明:大模型虽已具备“读懂光谱”的潜力,但要实现“用光谱推导化学”,仍需深度融合领域知识与科学推理机制。

值得注意的是,书生科学大模型(Intern-S1)综合准确率达到 65.37%,逼近闭源模型 Gemini-2.5-pro(67.81%),并在分子结构解析(90.00%)、光谱 - 分子逆向推理(40.00%)等高难度任务上表现领先,为光谱智能从“模式识别”迈向“科学推理”提供了关键基准与优化方向。

SpectrumWorld 已通过 GitHub、Hugging Face 等在线开源平台向全球研究者开放,支持多模型统一接入、可复现评测与持续扩展,推动光谱智能从“单点刷分”走向“系统迭代”。该成果已被 KDD 2026 接收,论文第一作者为上海人工智能实验室实习生杨卓与谢嘉庆。

核心代码:

https://github.com/InternScience/SpectrumLab

项目主页:

https://spectrumworld.github.io/(含论文、数据、使用平台等)

为何谱学智能评测需要“统一基座”?

化学家解读谱图并非简单的“看图”,而是遵循一条循序渐进的认知链条:先识别谱图信号,再辨认峰型与化学模式,进而推断分子结构,最后进行逆向解析或分子设计。然而,当 GPT、Gemini、Qwen-VL 等多模态大模型进入光谱领域时,仍面临四类结构性瓶颈:

SpectrumWorld 的目标并非提出单一的模型或构建新的排行榜,而是旨在回答一个更基础的问题:光谱领域的 AI 应如何被系统地训练、评测、比较和迭代?

SpectrumWorld 由三大核心模块组成:

SpectrumLab,模块化 Python 平台,集成数据处理、模型接入与评估工具链,显著降低光谱 AI 研发门槛;

SpectrumAnnotator,基于多模态大语言模型的自动标注引擎,通过“零样本推理 + 专家闭环校验”高效生成高质量基准数据;

SpectrumVQA,覆盖 14 项任务、10 余种光谱类型、超 120 万化合物的多层基准套件,首次系统量化了 23 个前沿大模型在光谱理解与生成任务中的能力图谱。

SpectrumVQA 模拟化学家读谱的认知流程,将 14 个子任务组织为四个层级,考察模型的多维能力:

当前 SpectrumVQA 共包含 572 道评测题,覆盖 IR、NMR、MS、Raman 等 10 余类光谱类型,相关数据源自 120 万 + 化学物质数据的整合与处理。

构建高质量评测数据的难点不仅在于“积累数据”,更在于如何构造科学合理、可自动验证且可持续扩展的问题与答案。为此,SpectrumAnnotator 将合作实验室实验谱、公开数据库和期刊补充材料等多源数据纳入统一流程,并通过模板生成、自动质检和专家复核形成闭环。其核心流程包括:

种子数据整理→ 合作实验室实验谱(约 23.9 万个分子数据点,覆盖 8 类光谱)+ SDBS、QM9S、NovoBench 等公开库(100 万 + 化合物)+ 期刊补充材料挖掘

任务模板生成→ YAML 配置驱动,结合分子元数据自动生成选择题

自动解析与质检→ SpectrumVerifier 过滤格式错误、图文不一致样本

专家复核→ 复杂样本人工把关,形成闭环

因此,SpectrumVQA 并非一次性的静态数据集,而是一个可随新数据、新光谱类型和新任务持续扩展的评测生成框架。

SpectrumLab 提供评测数据管理、多模型统一接入、选择题/开放式评测器、CLI 评测与公开排行榜。研究者可快速加载指定层级或子任务,在统一协议下接入自有模型或 API 服务,实现可复现对比。

大模型评测:识谱能力尚可,推理仍是短板

基于 SpectrumWorld,研究团队对 23 个主流开源与闭源多模态大模型进行了系统评测,覆盖 GPT-4o、Claude、Gemini、Qwen-VL、InternVL、GLM、Doubao 等代表性模型。评测结果显示,当前模型在基础识别任务上已具备一定能力,但在复杂结构推理和生成类任务上仍存在明显差距。

这表明当前模型已能识别不少谱图模式,但距离真正实现“峰位—官能团—分子式—结构”的多步科学推理仍有距离。

从整体榜单看,闭源模型仍保持领先,但开源模型已明显逼近。Gemini-2.5-pro 以 67.81% 的综合准确率位列第一,InternVL3.5-241B 达到 65.50%,与闭源最优模型差距仅约 2.31 个百分点。与此同时,具备显式推理过程的模型在高阶任务上普遍表现更好,表明多步推理能力可能是光谱科学任务中的关键变量。

SpectrumWorld 的价值不仅在于给出总分排名,更在于揭示模型在不同认知层级上的能力差异。以 Intern-S1 为例,其 thinking 模式在结构解析、逆向推理和性质/结构预测相关任务上表现突出,显示出面向科学场景强化推理能力的重要性。

综合性能稳居第一梯队

InternS1-think 以 65.37% 的综合准确率位列参评模型前三,与最优闭源模型 Gemini-2.5-pro 的差距仅约 2.44 个百分点。开启思考模式后,相较 InternS1-nothink(59.57%)提升约 5.8 个百分点,说明多步推理对光谱这类“证据链很长”的科学任务至关重要。

高难度任务上的突出表现

在化学家最关心的结构解析与逆向推理上,Intern-S1 优势更为明显:

-分子结构解析(SE):InternS1-think 达 90.00%,为参评模型中的顶尖水平之一;

-逆向问题(IP,光谱→分子):InternS1-think 达 40.00%,大幅领先多数模型(大量模型在该项接近 0%);

-从头生成(DnG):InternS1-think 达 15.79%,在 Generation 层整体平均仅 6.41% 的背景下仍表现突出。

误差分析:性质预测任务族表现领先

误差分析进一步显示,Intern-S1 在性质/结构预测相关任务上的错误率较低。在性质预测任务中,Intern-S1 的错误率为 10.5%,低于 InternVL-3.5 的 13.2%。这表明它在“从谱图证据推断分子性质或结构”这一环节上具有更稳定的跨模态映射能力。

>解读:光谱 AI 的瓶颈不仅是“图像识别”,更是峰位—官能团—分子式—结构之间的多步符号整合。Intern-S1 的 thinking 模式使其在结构解析、逆向推理等需要多步证据整合的科学任务上体现出优势。

除 Intern-S1 外,实验还显示:显式增强推理的模型,在生成类任务上优势显著。类似地,Doubao-1.5-Vision-Pro-Thinking 在 Forward Problems 上达到 66.67%,也说明 reasoning 能力是生成类光谱任务的关键变量。

Intern-S1 在科学推理任务中的突出表现印证了:为光谱场景注入深度推理能力,是突破当前瓶颈、提升模型科学可靠性的关键路径。SpectrumWorld 的核心使命,正是将这些隐性的能力差异“显性化”、标准化,并精准转化为下一代模型迭代的导航图。