顶尖AI医学诊断能力遭哈佛实测：误诊率高达八成

发布时间：2026-04-16 08:57阅读：23

哈佛医学院的一个研究团队近期开展了一项颇具挑战性的实验：他们选取了超过二十款当前最前沿的人工智能大语言模型——涵盖ChatGPT、DeepSeek、Google Gemini以及Anthropic Claude——并为这些模型安排了一场医学"入学考核"。

考核题目采用单一形式：根据患者的初始症状和体征，进行"鉴别诊断"——即列出患者可能罹患的所有疾病种类。

考核成果如何？

误诊率：高达80%。

诚然，这一数字看起来相当惊人——但有必要深入探究这项研究的实际意义。

研究重点测试的是"鉴别诊断"能力，这是医疗实践中最具挑战性的任务之一。真正的临床医师在进行鉴别诊断时，需要综合考量：

病史采集（患者的表述内容与未提及的信息）

体格检查（体温、血压、触诊结果）

实验室检查（血液检测、尿液检测、影像学检查）

而此次AI参与的"考核"，仅提供了初步症状和体征——缺乏病史资料、缺乏检查结论、缺乏临床背景。

通俗而言：给予AI的是一道仅有起始线索、缺乏关键信息的谜题，要求其推测"元凶"身份。

尽管本次测试表现不尽理想，但人工智能在医疗领域并非毫无价值。

事实上，AI在特定医疗任务上已经展现出超越普通医师的潜力：影像学（CT、MRI读片）、病理切片分析、药物研发领域。

然而鉴别诊断恰恰是AI的薄弱环节：因为该任务需要"模糊推理"能力——即在信息不完整的情况下，依据概率分布和临床经验做出最优判断。

而这种"模糊推理"能力，恰恰是当前大语言模型的软肋。大语言模型擅长的是"处理相似题型"，而不擅长"在信息匮乏时做出临床决策"。

这为AI医疗领域的从业者敲响了警钟：切勿神化AI的诊断能力，至少在目前阶段，AI最适宜的角色是"医师的辅助参考意见"，而非"取代医师进行诊断决策"。