顶尖AI医学诊断能力遭哈佛实测:误诊率高达八成
哈佛医学院的一个研究团队近期开展了一项颇具挑战性的实验:他们选取了超过二十款当前最前沿的人工智能大语言模型——涵盖ChatGPT、DeepSeek、Google Gemini以及Anthropic Claude——并为这些模型安排了一场医学"入学考核"。
考核题目采用单一形式:根据患者的初始症状和体征,进行"鉴别诊断"——即列出患者可能罹患的所有疾病种类。
考核成果如何?
误诊率:高达80%。
诚然,这一数字看起来相当惊人——但有必要深入探究这项研究的实际意义。
研究重点测试的是"鉴别诊断"能力,这是医疗实践中最具挑战性的任务之一。真正的临床医师在进行鉴别诊断时,需要综合考量:
病史采集(患者的表述内容与未提及的信息)
体格检查(体温、血压、触诊结果)
实验室检查(血液检测、尿液检测、影像学检查)
而此次AI参与的"考核",仅提供了初步症状和体征——缺乏病史资料、缺乏检查结论、缺乏临床背景。
通俗而言:给予AI的是一道仅有起始线索、缺乏关键信息的谜题,要求其推测"元凶"身份。
尽管本次测试表现不尽理想,但人工智能在医疗领域并非毫无价值。
事实上,AI在特定医疗任务上已经展现出超越普通医师的潜力:影像学(CT、MRI读片)、病理切片分析、药物研发领域。
然而鉴别诊断恰恰是AI的薄弱环节:因为该任务需要"模糊推理"能力——即在信息不完整的情况下,依据概率分布和临床经验做出最优判断。
而这种"模糊推理"能力,恰恰是当前大语言模型的软肋。大语言模型擅长的是"处理相似题型",而不擅长"在信息匮乏时做出临床决策"。
这为AI医疗领域的从业者敲响了警钟:切勿神化AI的诊断能力,至少在目前阶段,AI最适宜的角色是"医师的辅助参考意见",而非"取代医师进行诊断决策"。