AI医疗辅助的局限性

发布时间：2026-04-04 15:58阅读：16

2026

Bean, Andrew M., et al. "Reliability of LLMs as medical assistants for the general public: a randomized preregistered study." Nature Medicine (2026): 1-7.

《自然医学》发表的研究表明，尽管大型语言模型（LLM，如GPT-4）具备接近完美的医学知识，但当普通用户直接利用它们获取医疗建议时，实际效果却令人失望，甚至不如普通人自行上网搜索或依靠常识判断。

研究背景与问题

像GPT-4这样的AI大模型，在美国医师执照考试（USMLE）等专业医学测试中表现出色，几乎能取得满分。这使得许多人（包括医疗机构）认为，这些AI可以直接为公众提供可靠的医疗建议。

然而，“擅长考试”是否意味着“擅长看病”？当一个没有任何医学背景的普通人与AI交流询问病情时，是否真的能够获得准确且实用的答案呢？

研究方法

大规模真人实验

研究人员招募了1,298名普通参与者，开展了一项随机对照试验。

模拟真实场景

参与者需要处理10个常见的医疗情景（例如：“我头痛发烧三天了，该怎么办？”）。

任务分为两个部分：

识别疾病：判断可能是什么病症。

选择处置方案：决定是应该在家休息、看全科医生，还是前往急诊。

分组对比：

实验组：参与者可以借助三种顶尖的AI大模型（GPT-4o, Llama 3, Command R+）来辅助决策。

对照组：参与者只能使用自己习惯的信息来源。

← 上一篇：科技投资方向：如何挑选稳健的科技材料公司下一篇：AI革新趋势与实战技巧全攻略 →