皮肤科医生对阵AI：甲病诊断能力对比研究

发布时间：2026-06-12 21:15阅读：28

人机对决：甲病诊断谁更精准？

一项关于甲病诊断的前瞻性对比研究

Human Expertise or Artificial Intelligence? A Prospective Study on Nail Disorder Diagnosis

期刊：npj Digital Medicine (2026)

DOI：10.1038/s41746-026-02850-9

收稿 / 接收：2025-12-24 / 2026-05-26

通讯作者：Flurin L. Brand (Inselspital, 瑞士伯尔尼大学医院皮肤科)

文章类型：前瞻性比较研究（原创研究）

核心要点速览

这项发表于 npj Digital Medicine 的前瞻性比较研究，聚焦一个看似小众却极具临床挑战性的问题：当一位皮肤科医生面对一张甲病照片，与四个目前最被广泛使用的通用多模态大语言模型（GPT-4o、Grok 3、Claude Sonnet 4、Gemini 2.5 Flash）同场竞技，谁的诊断更准？答案是令人清醒的——在 20 张已病理/真菌培养/直接镜检确诊的标准化甲病临床照片上，17 位皮肤科医生总体首诊正确率达 70.6%，考虑鉴别诊断后升至 80.3%；而四个 AI 模型首诊正确率仅 25.0%，考虑鉴别诊断后也不过 35.0%，差距具有统计学显著性（p<0.001）。更值得警惕的是，AI 对肿瘤类病变识别率仅13.9%，对非肿瘤病变也只有 52.3%，与皮肤科医生 74.5% vs 85.0% 的表现形成强烈反差。研究结论是：当前通用型 LLM 尚不足以独立承担甲病诊断，但在临床监督下可作为鉴别诊断的提示工具。

一、研究背景与意义

甲病虽然常被视为皮肤科的边角领域，但其诊断之难远超公众想象。甲板是三维立体结构，在常规临床摄影中难以稳定呈现，其形态学差异细微而丰富，且不同人种、不同肤色的差异较小，原本被作者视为 AI 模式识别能力可以低门槛发挥的领域。然而，临床现实是，即便是经验丰富的皮肤科医生，对罕见甲病的诊断准确率也明显低于常见皮肤病；而甲真菌病、纵向黑甲、甲下黑色素瘤、鳞癌等良恶性病变又常因外观相似而容易误诊，对临床决策影响巨大。

正因如此，国际皮肤科领域近年来对 AI 寄予厚望，2025 年 Indian Dermatol Online J 发表的综述系统阐述了 AI 在甲病诊断与管理中的潜在价值（参考文献 1）。多模态大语言模型的崛起让这一想象空间被进一步放大——它们不仅能看图，还能用自然语言解释诊断思路、与患者沟通、在医患之间充当桥梁，被认为是图像分析专用模型之外的全新范式。但作者团队敏锐地注意到，此类通用型模型在医学影像诊断中的可靠性迄今未被严格评估，且 LLMs 存在众所周知的幻觉（hallucination）问题，可能编造看似合理但实际错误的医学信息。这一未被填补的证据空白，正是本研究想要切入的关键。

二、研究目的

研究的总体目标是：前瞻性地评估四种公开发布的免费多模态大语言模型（GPT-4o、Grok 3、Claude Sonnet 4、Gemini 2.5 Flash）在甲病临床图像诊断中的准确率，并将其与不同资历的皮肤科医生（住院医师、皮肤科专科医生、甲病亚专科专家）进行系统比较。研究还关注一个常被忽视的安全性问题——AI 模型在甲肿瘤识别上的表现，因为这关系到错把甲黑色素瘤当成甲真菌病、延误治疗、甚至导致不恰当抗真菌处方等真实临床风险。

三、研究方法

本研究为一项跨多中心的国际合作研究，由瑞士伯尔尼大学医院皮肤科主导，联合瑞士卢塞恩教学医院、德国科隆大学医院、印度德里大学医学院、美国 Weill Cornell Medicine、意大利 San Raffaele 医院、比利时 CHU Brugmann 等 11 个机构共同完成，从研究设计阶段就纳入了多个国家和不同层级的皮肤科专家，确保评估结果具有一定的国际代表性。研究在方法学上做了几项重要设计选择，值得特别说明。

在研究对象方面，17 位皮肤科医生被分为三组：第一组 6 名皮肤科住院医师（Residents），代表初阶临床水平；第二组 6 名皮肤科专科医生（Board-certified dermatologists），代表经过系统训练的全科皮肤科医生；第三组 5 名甲病亚专科专家（Experts in nail diseases），代表长期专注甲病诊疗的最高专业水平。三组医生在工龄、执业机构上分布合理，1–10 年工龄和 21 年以上工龄各占 41.2%，11–20 年工龄占 17.6%；64.7% 在大学医院工作，23.5% 在公立医院，11.8% 在私立机构或私人诊所执业，覆盖了不同临床场景下的医生画像。

在测试集构建上，研究团队从公开

← 上一篇：AI学院2026届毕业生安全指南下一篇：龚体官宣：星闪协议栈将于 7 月 15 日全面开源 →