生成式AI临床应用能力仍存局限
尽管人工智能(AI)在医疗健康领域的运用愈发普遍,但其“仿效医师思维”的本领仍有显著缺陷。美国麻省总医院MESH孵化器团队开展的最新研究表明,生成式AI在临床推断的关键步骤仍显薄弱,尚无法独立承担临床诊疗工作。研究成果刊登在最新一期《JAMA Network Open》上。
团队选取包括ChatGPT、DeepSeek、Claude、Gemini和Grok在内的21种大语言模型,在29个已公开的临床病例中进行测评,并通过逐步给予患者信息(从基础症状到实验室及影像学结果)来复现真实诊疗流程。结果显示,当获取完整信息后,所有模型在超出90%的案例中能给出准确的最终诊断。
然而,在关键的首诊阶段,这些模型普遍表现不佳。研究发现,超出80%的情况下,模型未能提出合理的"鉴别诊断",即对多种可能疾病进行系统性分析与甄别。这一能力被视作临床推理的核心,也是医师决策的关键基础。
为更全面评估模型能力,团队构建了一套名为PrIME-LLM的新指标,从提出潜在诊断、选取检查手段、给出最终诊断到制定治疗方案等多个维度对模型进行综合评判。结果显示,各模型整体评分在64%至78%之间,表现存在显著差异。
团队指出,大语言模型更擅长在信息完备的情形下"给出答案",但在信息不足、需要开放性推断的情境中表现较弱。伴随实验室数据和影像资料的加入,模型表现有所提升,且新一代模型整体优于旧版本,显示出相关技术正在持续进步。
团队表明,当前大语言模型尚不适宜在缺乏监管的情形下直接用于临床实践,其价值更在于协助医师决策,而非替代医师。(记者张佳欣)