标签

SKELEX:基于视觉基础模型的肌骨X线智能诊断新突破

发布时间:2026-06-08 08:02来源:微信阅读:2

npj Digital Medicine|视觉基础模型辅助肌骨X线诊断

蓝字关注(联系方式见文末)

01

肌肉骨骼疾病影响全球超过17亿人,是造成疼痛、功能受限和医疗资源消耗的重要原因。与许多器官系统相对集中的疾病谱不同,肌骨系统覆盖从急性骨折、退行性骨关节炎,到炎症、代谢、感染、发育异常以及骨肿瘤等高度异质的病变;同一种疾病还可能出现在不同解剖部位,并呈现出差异明显的影像表现。临床上,X线片仍是多数肌骨疾病的一线影像检查,但其判读高度依赖放射科医师和骨科医师的经验。在影像需求持续增长、专业放射科医师相对短缺的背景下,如何提高肌骨X线判读的一致性与可及性,已经成为医学影像AI值得关注的真实场景问题。

过去几年,人工智能在肌骨影像中已经显示出潜力,尤其是在创伤性骨折检测、骨关节炎分级等边界较清晰的任务中。然而,现有肌骨AI系统大多仍是单任务、强标注依赖、解剖部位受限的模型:用于腕部骨折的数据和模型,往往难以直接迁移到膝关节退变、骨肿瘤或其他部位异常;针对某一类疾病训练的模型,也可能无法处理同一张片子中同时存在的肿瘤、骨折、植入物或退变征象。这种碎片化开发模式限制了模型在真实临床场景中的泛化能力,也使得每一个新任务都需要重新收集和标注大量数据,尤其不利于罕见病和细粒度诊断任务。

基础模型为这一问题提供了新的技术路径:通过在大规模、多样化数据上进行预训练,模型可以学习更具迁移性的影像表征,而不是局限于某一个标签体系。病理、胸片和眼底影像等领域已经出现了基于海量医学图像训练的基础模型,并在多个下游任务中表现出较好的适应性。但对于肌肉骨骼X线而言,公开数据集通常规模有限、解剖部位和疾病覆盖不足,尚难支撑一个真正面向多部位、多疾病谱的通用表征学习框架。基于这一缺口,本文提出SKELEX,即面向肌骨X线片的大规模视觉基础模型,旨在回答一个核心问题:能否利用超过百万张未标注肌骨X线影像进行自监督预训练,从而获得可迁移、标签高效,并能支持多类肌骨诊断任务的通用影像表征。

02

一、模型整体定位

SKELEX是面向肌肉骨骼X线片的大规模视觉基础模型,全称为musculoSKELEtal X-ray foundation model。其核心目标不是为单一疾病训练一个封闭分类器,而是通过大规模自监督学习获得可迁移的肌骨影像表征,用于支持骨折检测、骨关节炎分级、骨肿瘤分类等多解剖部位、多疾病谱任务。

二、输入数据与任务目标

模型预训练使用来自首尔大学医院的1,296,540张未标注肌骨X线影像,覆盖15个身体部位和超过89种肌肉骨骼疾病状态。在下游阶段,SKELEX接收不同公开数据集中的X线片,输出相应任务的诊断分类结果,并可基于重建误差生成异常区域定位图,提示可能偏离正常解剖模式的影像区域。

三、模型架构与关键模块

SKELEX采用Vision Transformer-Large作为主干,并以掩码自编码器(masked autoencoder, MAE)为核心训练范式。模型先随机遮挡X线图像的一部分,再学习根据可见区域重建被遮挡内容;这一过程迫使模型理解骨皮质、关节间隙、骨小梁纹理及病变相关结构,而不是仅记忆任务标签。

在应用层面,研究进一步利用SKELEX的重建能力构建无监督异常定位:通过比较原图与重建图之间的像素级差异,形成reconstruction error map。此外,作者还基于SKELEX扩展出区域引导的多头骨肿瘤分类框架,先定位解剖区域,再对骨肿瘤、骨折和植入物等异常进行区域级推断。

四、训练与验证方式

训练流程包括两个阶段:首先使用在ImageNet-1K上预训练的MAE进行初始化,随后在SNUH-1M未标注肌骨X线数据集上继续自监督预训练。验证方面,作者在7个公开肌骨X线数据集、共12项下游诊断任务中评估,并与ResNet-101、ViT-L/I21K、ViT-MAE/I1K、BiomedCLIP、Radio-DINO等基线模型比较。

研究还进行了标签效率分析、解剖部位与疾病亚型分层评估、校准分析,以及重复图像和近重复图像敏感性分析。需要注意的是,论文中最严格的独立外部验证主要集中在骨肿瘤应用,并未将所有下游任务都等同证明为可直接临床泛化。

五、核心能力总结

总体来看,SKELEX的核心能力在于从海量未标注肌骨X线片中学习跨部位、跨疾病的通用视觉表征,并在有限标注条件下迁移到多种诊断任务。其重建误差图提供了一种无需像素级标注的异常提示方式,区域引导框架则增强了骨肿瘤相关任务的可解释性。该模型更适合作为肌骨影像AI开发的基础底座,而非已经完成临床替代验证的诊断系统。

03

一、跨任务评估:SKELEX在多类肌骨X线任务中体现专域预训练优势

数据:研究首先将SKELEX迁移到7个公开肌肉骨骼X线数据集的12项下游诊断任务,涵盖骨折检测、骨关节炎分级、骨肿瘤分类、扁平足识别以及多解剖部位异常识别等场景。对照模型包括ResNet-101、ViT-L/I21K、ViT-MAE/I1K、BiomedCLIP和Radio-DINO。在相同训练与评估设置下,SKELEX相较其初始化模型ViT-MAE/I1K取得平均6.21%的相对性能提升。

数据:在代表性的骨肿瘤检测任务中,SKELEX达到AUROC 0.953,高于ViT-MAE/I1K的0.884、ViT-L/I21K的0.902、ResNet-101的0.903、BiomedCLIP的0.914和Radio-DINO的0.867。在更依赖细粒度结构辨识的任务中,优势更明显:骨肿瘤亚型分类相对提升5.39%–12.30%,扁平足识别提升2.78%–13.47%,儿童腕部骨折亚型分类提升2.20%–7.66%。

解读:这些结果说明,肌骨X线并非简单的“自然图像迁移”或“通用医学图像迁移”即可充分覆盖。骨皮质连续性、骨小梁纹理、关节间隙、骨端形态以及肿瘤样骨质破坏等征象具有高度专科化特征;在1296540张未标注肌骨X线片上进行自监督掩码重建预训练,使SKELEX获得了更贴近肌骨影像语义的可迁移表征。

配图说明:请参考Figure 1,其中Figure 1a–c展示SKELEX的数据