斯坦福3D大模型Merlin:AI读片写报告,精准预判风险
研究速览
放射科医生资源短缺与CT扫描量持续攀升的矛盾愈发严峻,尤其腹部CT切片数量庞大,解读过程耗时费力。当前AI模型多局限于二维图像或简短文本,难以有效处理真实的临床三维CT数据。为此,斯坦福大学的研究团队开发了Merlin,一个专门针对腹部CT的三维视觉语言基础模型。
Merlin的创新之处在于,它打破了传统“单一模态、单一任务”的局限,能够同时从海量的三维CT扫描、电子健康记录(EHR)诊断代码以及长篇放射学报告中进行联合学习。研究团队在一个A6000 GPU上,利用超过15000例CT数据完成了模型的预训练。随后,在零样本病灶分类、表型预测、跨模态检索、五年疾病预测、报告生成和三维器官分割等六大类共计752项任务上对其性能进行了全面评估。结果显示,Merlin不仅在内部测试集上表现卓越,在来自三个外部机构、涵盖超过44,000例CT扫描的外部验证中也展现出强大的稳健性,其性能显著超越了现有的二维视觉语言模型和三维视觉模型。这项研究不仅揭示了Merlin在辅助影像解读、减轻医生工作负担方面的巨大潜力,更为未来基于CT的生物标志物发现和疾病风险预测开辟了新的途径。
清璟AI——由清华、北大医学与工程交叉学科团队组建,精通AI智能体、大模型、深度学习、机器学习、多模态及多组学技术,致力于为医学研究者和临床医生提供全方位支持与创新性解决方案。我们拥有顶尖科研资源,欢迎垂询!共同探索AI与医学的无限可能,携手发表顶级期刊论文!
研究亮点
直击临床痛点:能够一次性处理完整的300余层CT扫描数据,解决了传统二维模型在“切片拼接”过程中存在的效率低下和空间信息丢失问题。
突破传统局限:创造性地结合了结构化诊断代码与非结构化影像报告,进行了多阶段预训练,无需额外人工标注,最大限度地挖掘了现有临床数据的价值。
性能碾压基线:在“即插即用”的零样本病灶分类等任务上,未经微调的Merlin模型性能甚至超越了使用全部训练数据进行微调的同类模型。
泛化能力惊人:虽然模型仅在腹部CT数据上进行训练,但能够直接应用于胸部CT相关任务,且性能优于专门为胸部CT设计的基线模型。
全面开源可复现:研究团队公开了包含25,494对腹部CT扫描与报告的数据集、预训练模型以及全部代码,为全球研究者提供了坚实的研究基础。
研究结果
图1: Merlin的训练与评估框架 本研究构建的Merlin模型,利用EHR诊断代码和放射学报告进行多任务或分阶段预训练(a)。随后,Merlin无需任何架构修改,即可“开箱即用”地执行零样本病灶分类(b)、表型分类(c)和零样本跨模态检索(d)等非适配任务。通过模型适配,Merlin还能完成5年疾病预测(e)、放射学报告生成(f)和3D语义分割(g)等下游任务。
图2: 零样本病灶分类结果 在这一“开箱即用”的测试中,研究者根据自然语言提示,让模型判断CT图像中是否存在30种常见影像征象(a)。结果显示,Merlin在内部测试集的宏平均F1分数达到0.741,在外部测试集也达到了0.647,均显著优于2D领域的OpenCLIP和BioMedCLIP模型(b)。对于胸腔积液、脾肿大等粗颗粒特征,模型表现优异;而在阑尾炎、转移性疾病等需要精细特征的征象上,性能则有预期中的下降(c)。数据缩放定律实验(d)和消融实验(e)表明,扩大预训练数据量和采用I3D权重初始化是关键的性能提升策略。
图3: 表型分类结果 该任务旨在通过CT图像预测患者入院时关联的692种PheWAS表型。Merlin的宏平均AUROC达到了0.812,其中258种表型的AUROC超过0.85(a)。缩放定律曲线证实,增加预训练数据量可稳定提升模型性能(b)。架构对比实验(c-d)发现,基于ResNet的骨干网络表现优于ConvNeXt和Swin Transformer;较小的模型输入层感受野(即更小的z轴卷积核与步长)能有效提升性能。
图4: 替代架构对比实验 为公正比较,所有基线模型均在相同的Merlin数据集上训练。结果显示,无论是2D视觉语言模型、2D到3D的“提升”模型,还是3D纯视觉自监督模型,Merlin的表现均遥遥领先(d-e)。例如,在病灶分类任务上,Merlin在zero-shot设置下的F1分数,比最强的3D纯视觉模型在100%数据监督下的分数还高出16%。这证明了视觉-语言预训练策略的巨大优势。
图5: 外部验证(腹部与胸部CT) 在总计44,098例外部CT扫描的验证中,Merlin在腹部CT零样本病灶分类任务上,F1分数平均超越次优模型19.7%,展现了卓越的跨机构泛化能力(a-b)。更令人惊讶的是,在胸部CT的数据上仅进行线性探测(即只微调最后的分类层),Merlin的性能比现有的胸部CT基础模型高出12.3%的平均AUC(c-d)。这表明Merlin虽然只在腹部CT上训练,但其学到的视觉表征具有极强的通用性。
课题申报指南
挖掘多模态临床数据的富矿 模仿Merlin的预训练策略,设计融合影像、结构化诊疗记录与非结构化文本报告的训练框架。可重点论证相较于单一模态(仅用图像或仅用文本)预训练的性能增益,这将是本子一个显著创新点。
聚焦特定解剖部位或病种的3D基础模型 Merin展示了专用于腹部CT的模型优势。可参照此思路,针对头部CT、膝关节MRI或冠脉CTA等特定领域的3D影像,构建专属的基础模型,解决通用模型在特定解剖或病理上的特征解析不足问题。
系统化构建“非适配”与“适配”任务评估体系 像本研究一样,将模型评估分为“开箱即用”(如零样本分类、跨模态检索)和“需要微调”(如疾病预测、报告生成)两大板块,并设置数百个细分任务。这种全面的基准测试能更客观、系统地衡量模型的临床实用性。
开展“数据缩放定律”与消融实验以指导资源优化 在申请基金时,可设计实验来探究模型性能随训练数据量、模型参数量增长的规律,并系统研究不同预训练策略(如是否拆分报告、是否多任务学习)的影响。这不仅能为后续大规模研究提供资源预估,也体现了深刻的科研洞察力。
关于我们
清璟AI由国内TOP2高校医工交叉博士联合创立,专注于医疗大模型科研、影像组学、病理组学、深度学习、AI智能体、生信分析、多组学、多模态和各类人工智能算法。致力于打造一站式Al+医学科研生态圈,提供专业的AI智能体、高端科研资源及一对一定制化服务。我们的服务涵盖从科研方案设计、数据处理到AI模型训练及系统开发等各个领域,旨在为医学研究者和临床医生提供全方位的支持与创新解决方案。携手清璟AI,让科研更智能,让医学更精准。
科研合作请联系
长按二维码加微信