真实病例诊断AI或可与医生比肩:哈佛团队建议重审评估体系
随着技术不断增强,AI 在某些医学基准数据集上达到 SOTA 的现象早已不足为新鲜。但研究者进一步表明:在真实病例情境中,AI 的准确率能够与医生相当,甚至出现更高的表现。也就是说,AI 并非只是在训练阶段“背诵”标准答案,而是在临床实际中完成诊断推理与决策。
近日,哈佛医学院、斯坦福大学等研究团队在 Science 发表了迄今规模最大的 AI 医疗对照研究[1],并首次使用真实患者病历来检验模型的推理能力。真实场景往往会带来病历内容杂乱、信息缺失等不确定性。
研究人员让 OpenAI 的 o1 模型与几百名医生在六类不同场景中完成诊断任务并进行对比。结果显示,在多项临床推理工作上,AI 的准确率与医生持平,甚至更高,覆盖急诊决策、诊断本身以及为患者制定下一步治疗方案。
该研究也指向一个可能的关键转折:当模型能力持续提升时,传统医学评估基准以及人工设计的测试样本或许正在走向失效。“过去我们还能用多项选择题来衡量模型水平,但这些题的得分长期已经接近 100%,再用来追踪进展的意义不大。”论文共同第一作者、哈佛医学院研究员 Peter Brodeur 表示。
研究团队强调,AI 可能会提供更精准的文本建议,减少一些不必要的检查,并降低漏诊与误诊风险,但这并不等同于 AI 已具备独立行医的能力,尤其是在生死攸关的急诊环境中。此外,医生在处理影像、听诊、面部表情等方面仍有不可替代的优势。团队还呼吁尽早启动前瞻性试验,以便在真实患者护理场景中评估相关技术。
图丨相关研究论文(