斯坦福3D大模型Merlin：AI读片写报告，精准预判风险

发布时间：2026-05-02 19:37阅读：14

研究速览

放射科医生资源短缺与CT扫描量持续攀升的矛盾愈发严峻，尤其腹部CT切片数量庞大，解读过程耗时费力。当前AI模型多局限于二维图像或简短文本，难以有效处理真实的临床三维CT数据。为此，斯坦福大学的研究团队开发了Merlin，一个专门针对腹部CT的三维视觉语言基础模型。

Merlin的创新之处在于，它打破了传统“单一模态、单一任务”的局限，能够同时从海量的三维CT扫描、电子健康记录（EHR）诊断代码以及长篇放射学报告中进行联合学习。研究团队在一个A6000 GPU上，利用超过15000例CT数据完成了模型的预训练。随后，在零样本病灶分类、表型预测、跨模态检索、五年疾病预测、报告生成和三维器官分割等六大类共计752项任务上对其性能进行了全面评估。结果显示，Merlin不仅在内部测试集上表现卓越，在来自三个外部机构、涵盖超过44,000例CT扫描的外部验证中也展现出强大的稳健性，其性能显著超越了现有的二维视觉语言模型和三维视觉模型。这项研究不仅揭示了Merlin在辅助影像解读、减轻医生工作负担方面的巨大潜力，更为未来基于CT的生物标志物发现和疾病风险预测开辟了新的途径。

清璟AI——由清华、北大医学与工程交叉学科团队组建，精通AI智能体、大模型、深度学习、机器学习、多模态及多组学技术，致力于为医学研究者和临床医生提供全方位支持与创新性解决方案。我们拥有顶尖科研资源，欢迎垂询！共同探索AI与医学的无限可能，携手发表顶级期刊论文！

研究亮点

直击临床痛点：能够一次性处理完整的300余层CT扫描数据，解决了传统二维模型在“切片拼接”过程中存在的效率低下和空间信息丢失问题。

突破传统局限：创造性地结合了结构化诊断代码与非结构化影像报告，进行了多阶段预训练，无需额外人工标注，最大限度地挖掘了现有临床数据的价值。

性能碾压基线：在“即插即用”的零样本病灶分类等任务上，未经微调的Merlin模型性能甚至超越了使用全部训练数据进行微调的同类模型。

泛化能力惊人：虽然模型仅在腹部CT数据上进行训练，但能够直接应用于胸部CT相关任务，且性能优于专门为胸部CT设计的基线模型。

全面开源可复现：研究团队公开了包含25,494对腹部CT扫描与报告的数据集、预训练模型以及全部代码，为全球研究者提供了坚实的研究基础。

研究结果

图1: Merlin的训练与评估框架本研究构建的Merlin模型，利用EHR诊断代码和放射学报告进行多任务或分阶段预训练（a）。随后，Merlin无需任何架构修改，即可“开箱即用”地执行零样本病灶分类（b）、表型分类（c）和零样本跨模态检索（d）等非适配任务。通过模型适配，Merlin还能完成5年疾病预测（e）、放射学报告生成（f）和3D语义分割（g）等下游任务。

图2: 零样本病灶分类结果在这一“开箱即用”的测试中，研究者根据自然语言提示，让模型判断CT图像中是否存在30种常见影像征象（a）。结果显示，Merlin在内部测试集的宏平均F1分数达到0.741，在外部测试集也达到了0.647，均显著优于2D领域的OpenCLIP和BioMedCLIP模型（b）。对于胸腔积液、脾肿大等粗颗粒特征，模型表现优异；而在阑尾炎、转移性疾病等需要精细特征的征象上，性能则有预期中的下降（c）。数据缩放定律实验（d）和消融实验（e）表明，扩大预训练数据量和采用I3D权重初始化是关键的性能提升策略。

图3: 表型分类结果该任务旨在通过CT图像预测患者入院时关联的692种PheWAS表型。Merlin的宏平均AUROC达到了0.812，其中258种表型的AUROC超过0.85（a）。缩放定律曲线证实，增加预训练数据量可稳定提升模型性能（b）。架构对比实验（c-d）发现，基于ResNet的骨干网络表现优于ConvNeXt和Swin Transformer；较小的模型输入层感受野（即更小的z轴卷积核与步长）能有效提升性能。

图4: 替代架构对比实验为公正比较，所有基线模型均在相同的Merlin数据集上训练。结果显示，无论是2D视觉语言模型、2D到3D的“提升”模型，还是3D纯视觉自监督模型，Merlin的表现均遥遥领先（d-e）。例如，在病灶分类任务上，Merlin在zero-shot设置下的F1分数，比最强的3D纯视觉模型在100%数据监督下的分数还高出16%。这证明了视觉-语言预训练策略的巨大优势。

图5: 外部验证（腹部与胸部CT）在总计44,098例外部CT扫描的验证中，Merlin在腹部CT零样本病灶分类任务上，F1分数平均超越次优模型19.7%，展现了卓越的跨机构泛化能力（a-b）。更令人惊讶的是，在胸部CT的数据上仅进行线性探测（即只微调最后的分类层），Merlin的性能比现有的胸部CT基础模型高出12.3%的平均AUC（c-d）。这表明Merlin虽然只在腹部CT上训练，但其学到的视觉表征具有极强的通用性。

课题申报指南

挖掘多模态临床数据的富矿模仿Merlin的预训练策略，设计融合影像、结构化诊疗记录与非结构化文本报告的训练框架。可重点论证相较于单一模态（仅用图像或仅用文本）预训练的性能增益，这将是本子一个显著创新点。

聚焦特定解剖部位或病种的3D基础模型 Merin展示了专用于腹部CT的模型优势。可参照此思路，针对头部CT、膝关节MRI或冠脉CTA等特定领域的3D影像，构建专属的基础模型，解决通用模型在特定解剖或病理上的特征解析不足问题。

系统化构建“非适配”与“适配”任务评估体系像本研究一样，将模型评估分为“开箱即用”（如零样本分类、跨模态检索）和“需要微调”（如疾病预测、报告生成）两大板块，并设置数百个细分任务。这种全面的基准测试能更客观、系统地衡量模型的临床实用性。

开展“数据缩放定律”与消融实验以指导资源优化在申请基金时，可设计实验来探究模型性能随训练数据量、模型参数量增长的规律，并系统研究不同预训练策略（如是否拆分报告、是否多任务学习）的影响。这不仅能为后续大规模研究提供资源预估，也体现了深刻的科研洞察力。

关于我们

清璟AI由国内TOP2高校医工交叉博士联合创立，专注于医疗大模型科研、影像组学、病理组学、深度学习、AI智能体、生信分析、多组学、多模态和各类人工智能算法。致力于打造一站式Al+医学科研生态圈，提供专业的AI智能体、高端科研资源及一对一定制化服务。我们的服务涵盖从科研方案设计、数据处理到AI模型训练及系统开发等各个领域，旨在为医学研究者和临床医生提供全方位的支持与创新解决方案。携手清璟AI，让科研更智能，让医学更精准。

科研合作请联系

长按二维码加微信

← 上一篇：AI赋能一网统管：推动城市治理智能化下一篇：AI Agent 到底是什么 →