真实病例诊断AI或可与医生比肩：哈佛团队建议重审评估体系

发布时间：2026-05-04 15:30阅读：11

随着技术不断增强，AI 在某些医学基准数据集上达到 SOTA 的现象早已不足为新鲜。但研究者进一步表明：在真实病例情境中，AI 的准确率能够与医生相当，甚至出现更高的表现。也就是说，AI 并非只是在训练阶段“背诵”标准答案，而是在临床实际中完成诊断推理与决策。

近日，哈佛医学院、斯坦福大学等研究团队在 Science 发表了迄今规模最大的 AI 医疗对照研究[1]，并首次使用真实患者病历来检验模型的推理能力。真实场景往往会带来病历内容杂乱、信息缺失等不确定性。

研究人员让 OpenAI 的 o1 模型与几百名医生在六类不同场景中完成诊断任务并进行对比。结果显示，在多项临床推理工作上，AI 的准确率与医生持平，甚至更高，覆盖急诊决策、诊断本身以及为患者制定下一步治疗方案。

该研究也指向一个可能的关键转折：当模型能力持续提升时，传统医学评估基准以及人工设计的测试样本或许正在走向失效。“过去我们还能用多项选择题来衡量模型水平，但这些题的得分长期已经接近 100%，再用来追踪进展的意义不大。”论文共同第一作者、哈佛医学院研究员 Peter Brodeur 表示。

研究团队强调，AI 可能会提供更精准的文本建议，减少一些不必要的检查，并降低漏诊与误诊风险，但这并不等同于 AI 已具备独立行医的能力，尤其是在生死攸关的急诊环境中。此外，医生在处理影像、听诊、面部表情等方面仍有不可替代的优势。团队还呼吁尽早启动前瞻性试验，以便在真实患者护理场景中评估相关技术。

图丨相关研究论文（