AI医疗辅助的局限性
2026
Bean, Andrew M., et al. "Reliability of LLMs as medical assistants for the general public: a randomized preregistered study." Nature Medicine (2026): 1-7.
《自然医学》发表的研究表明,尽管大型语言模型(LLM,如GPT-4)具备接近完美的医学知识,但当普通用户直接利用它们获取医疗建议时,实际效果却令人失望,甚至不如普通人自行上网搜索或依靠常识判断。
01
研究背景与问题
像GPT-4这样的AI大模型,在美国医师执照考试(USMLE)等专业医学测试中表现出色,几乎能取得满分。这使得许多人(包括医疗机构)认为,这些AI可以直接为公众提供可靠的医疗建议。
然而,“擅长考试”是否意味着“擅长看病”?当一个没有任何医学背景的普通人与AI交流询问病情时,是否真的能够获得准确且实用的答案呢?
02
研究方法
大规模真人实验
研究人员招募了1,298名普通参与者,开展了一项随机对照试验。
模拟真实场景
参与者需要处理10个常见的医疗情景(例如:“我头痛发烧三天了,该怎么办?”)。
任务分为两个部分:
识别疾病:判断可能是什么病症。
选择处置方案:决定是应该在家休息、看全科医生,还是前往急诊。
分组对比:
实验组:参与者可以借助三种顶尖的AI大模型(GPT-4o, Llama 3, Command R+)来辅助决策。
对照组:参与者只能使用自己习惯的信息来源。