生成式AI临床应用能力仍存局限

发布时间：2026-04-14 09:05阅读：10

尽管人工智能（AI）在医疗健康领域的运用愈发普遍，但其“仿效医师思维”的本领仍有显著缺陷。美国麻省总医院MESH孵化器团队开展的最新研究表明，生成式AI在临床推断的关键步骤仍显薄弱，尚无法独立承担临床诊疗工作。研究成果刊登在最新一期《JAMA Network Open》上。

团队选取包括ChatGPT、DeepSeek、Claude、Gemini和Grok在内的21种大语言模型，在29个已公开的临床病例中进行测评，并通过逐步给予患者信息（从基础症状到实验室及影像学结果）来复现真实诊疗流程。结果显示，当获取完整信息后，所有模型在超出90%的案例中能给出准确的最终诊断。

然而，在关键的首诊阶段，这些模型普遍表现不佳。研究发现，超出80%的情况下，模型未能提出合理的"鉴别诊断"，即对多种可能疾病进行系统性分析与甄别。这一能力被视作临床推理的核心，也是医师决策的关键基础。

为更全面评估模型能力，团队构建了一套名为PrIME-LLM的新指标，从提出潜在诊断、选取检查手段、给出最终诊断到制定治疗方案等多个维度对模型进行综合评判。结果显示，各模型整体评分在64%至78%之间，表现存在显著差异。

团队指出，大语言模型更擅长在信息完备的情形下"给出答案"，但在信息不足、需要开放性推断的情境中表现较弱。伴随实验室数据和影像资料的加入，模型表现有所提升，且新一代模型整体优于旧版本，显示出相关技术正在持续进步。

团队表明，当前大语言模型尚不适宜在缺乏监管的情形下直接用于临床实践，其价值更在于协助医师决策，而非替代医师。（记者张佳欣）