皮肤科医生对阵AI:甲病诊断能力对比研究
人机对决:甲病诊断谁更精准?
一项关于甲病诊断的前瞻性对比研究
Human Expertise or Artificial Intelligence? A Prospective Study on Nail Disorder Diagnosis
期刊:npj Digital Medicine (2026)
DOI:10.1038/s41746-026-02850-9
收稿 / 接收:2025-12-24 / 2026-05-26
通讯作者:Flurin L. Brand (Inselspital, 瑞士伯尔尼大学医院皮肤科)
文章类型:前瞻性比较研究(原创研究)
核心要点速览
这项发表于 npj Digital Medicine 的前瞻性比较研究,聚焦一个看似小众却极具临床挑战性的问题:当一位皮肤科医生面对一张甲病照片,与四个目前最被广泛使用的通用多模态大语言模型(GPT-4o、Grok 3、Claude Sonnet 4、Gemini 2.5 Flash)同场竞技,谁的诊断更准?答案是令人清醒的——在 20 张已病理/真菌培养/直接镜检确诊的标准化甲病临床照片上,17 位皮肤科医生总体首诊正确率达 70.6%,考虑鉴别诊断后升至 80.3%;而四个 AI 模型首诊正确率仅 25.0%,考虑鉴别诊断后也不过 35.0%,差距具有统计学显著性(p<0.001)。更值得警惕的是,AI 对肿瘤类病变识别率仅13.9%,对非肿瘤病变也只有 52.3%,与皮肤科医生 74.5% vs 85.0% 的表现形成强烈反差。研究结论是:当前通用型 LLM 尚不足以独立承担甲病诊断,但在临床监督下可作为鉴别诊断的提示工具。
一、研究背景与意义
甲病虽然常被视为皮肤科的边角领域,但其诊断之难远超公众想象。甲板是三维立体结构,在常规临床摄影中难以稳定呈现,其形态学差异细微而丰富,且不同人种、不同肤色的差异较小,原本被作者视为 AI 模式识别能力可以低门槛发挥的领域。然而,临床现实是,即便是经验丰富的皮肤科医生,对罕见甲病的诊断准确率也明显低于常见皮肤病;而甲真菌病、纵向黑甲、甲下黑色素瘤、鳞癌等良恶性病变又常因外观相似而容易误诊,对临床决策影响巨大。
正因如此,国际皮肤科领域近年来对 AI 寄予厚望,2025 年 Indian Dermatol Online J 发表的综述系统阐述了 AI 在甲病诊断与管理中的潜在价值(参考文献 1)。多模态大语言模型的崛起让这一想象空间被进一步放大——它们不仅能看图,还能用自然语言解释诊断思路、与患者沟通、在医患之间充当桥梁,被认为是图像分析专用模型之外的全新范式。但作者团队敏锐地注意到,此类通用型模型在医学影像诊断中的可靠性迄今未被严格评估,且 LLMs 存在众所周知的幻觉(hallucination)问题,可能编造看似合理但实际错误的医学信息。这一未被填补的证据空白,正是本研究想要切入的关键。
二、研究目的
研究的总体目标是:前瞻性地评估四种公开发布的免费多模态大语言模型(GPT-4o、Grok 3、Claude Sonnet 4、Gemini 2.5 Flash)在甲病临床图像诊断中的准确率,并将其与不同资历的皮肤科医生(住院医师、皮肤科专科医生、甲病亚专科专家)进行系统比较。研究还关注一个常被忽视的安全性问题——AI 模型在甲肿瘤识别上的表现,因为这关系到错把甲黑色素瘤当成甲真菌病、延误治疗、甚至导致不恰当抗真菌处方等真实临床风险。
三、研究方法
本研究为一项跨多中心的国际合作研究,由瑞士伯尔尼大学医院皮肤科主导,联合瑞士卢塞恩教学医院、德国科隆大学医院、印度德里大学医学院、美国 Weill Cornell Medicine、意大利 San Raffaele 医院、比利时 CHU Brugmann 等 11 个机构共同完成,从研究设计阶段就纳入了多个国家和不同层级的皮肤科专家,确保评估结果具有一定的国际代表性。研究在方法学上做了几项重要设计选择,值得特别说明。
在研究对象方面,17 位皮肤科医生被分为三组:第一组 6 名皮肤科住院医师(Residents),代表初阶临床水平;第二组 6 名皮肤科专科医生(Board-certified dermatologists),代表经过系统训练的全科皮肤科医生;第三组 5 名甲病亚专科专家(Experts in nail diseases),代表长期专注甲病诊疗的最高专业水平。三组医生在工龄、执业机构上分布合理,1–10 年工龄和 21 年以上工龄各占 41.2%,11–20 年工龄占 17.6%;64.7% 在大学医院工作,23.5% 在公立医院,11.8% 在私立机构或私人诊所执业,覆盖了不同临床场景下的医生画像。
在测试集构建上,研究团队从公开