【锦脑科普】信 AI 还是信医生?哈佛数据揭秘:AI 初诊误诊率超 80%
不少朋友如今稍有头痛脑热,不再首选搜索引擎,而是直接转向 AI,询问“这是什么病?”或“该如何治疗?”。毕竟 AI 响应迅速、全天候待命,比去医院排队便捷太多!它总能自信罗列多种可能性与方案,语气显得十分确凿。
(图片来自于网络,仅供参考,不代表客观事实)
然而,哈佛大学近期的一项研究却给大众浇了一盆冷水——AI 在初步诊疗中的错误率竟高达 80%!
这意味着什么?换言之,若你向 AI 描述症状十次,其中八次它给出的主要诊断可能是错误的。
这让许多连体检报告都不敢细看的朋友震惊到大脑宕机:“等等,80%?!我平日里可都把 AI 当作‘私人医生’啊!”那么,究竟是 AI 可靠,还是医生更值得信赖?
JINXINBRAIN
哈佛实证 AI 诊疗
八成如同“开盲盒”
2026 年 4 月,哈佛医学院团队在《JAMA Network Open》期刊上公布了一组令整个 AI 医疗界沉默的数据。
研究团队选取了 21 款顶尖 AI 大模型——包括 ChatGPT、DeepSeek、Gemini、Claude、Grok 等大众熟知的“老朋友”。随后,向它们抛出 29 道标准临床病例题,模拟真实门诊流程:先提供症状,再给予检查结果,最后展示影像资料,逐步推进。
(图片来自于《JAMA Network Open》)
结果如何
在早期鉴别诊断阶段
仅凭症状推测疾病,所有模型的失败率均超过 80%。
在最终诊断阶段
当信息完备后,准确率反而能提升至 90% 以上。
PrIME-LLM 综合评分
21 个模型的得分介于 64% 至 78% 之间。其中,垫底者为 Gemini 1.5 Flash,得分最高的是 Grok 4 与 GPT-5。
原来我们随手依赖的 AI,在最关键的“初步判断”环节竟如此乏力?它看似对答如流,实则多是“一本正经地胡说八道”,缺乏临床经验支撑。而偏偏,我们使用 AI 最频繁的场景,正是信息最匮乏之时。
这并非寻求心安,而是在拿自己的性命赌 AI 那 20% 的正确率!
JINXINBRAIN
为何 AI 言之凿凿
真信它却会大翻车?
《Nature Medicine》发表了一项研究,专门测试了 OpenAI 推出的 ChatGPT Health 在急诊分诊中的表现。
涉及 60 个临床病例,涵盖 16 种病症,压力测试拉满。
(图片来自于《Nature Medicine》)
结果如下
明确需急诊的病例
52% 被 AI 判定为“无需紧急”
紧急状况下的失误率高达 48%
非紧急状况下的失误率也达到 35%
更离谱的是,当病例提及“家属认为没那么严重”时,AI 会主动降低紧急程度评级——AI 的设定倾向于讨好用户,因此它会天然地依据提问者的语气给予对方想要的答案,而非做出真实有效的临床判断。
JINXINBRAIN
AI 的三大致命缺陷
只会脑补,不懂“望闻问切”
AI 问诊完全依赖你的主观描述,缺乏查体、检查及影像支持,只能进行「假设性推断」。而医生诊疗时,会观察你的面色、聆听呼吸、触摸体温,甚至审视神态语气,这些细节 AI 全然无法感知。
你所说的≠你所患的
患者难以精准描述病症,更说不清哪里“没问题”——那些阴性症状连你自己都未留意,AI 更不可能猜到。同样的症状,年轻人与老人的病因可能截然不同,男性与女性的病因亦有差异,AI 只会套用数据,不懂灵活变通,极易漏诊罕见病或复杂病症。
患者会“说谎”,且往往是无意识的
“好像不太疼了”、“应该没啥大事”——你随口一说,AI 却全盘当真。它便会顺着你的话语编造出一个看似专业的答案,反而延误病情。
(本图片内容系 AI 生成,仅供参考,不代表客观事实)
你不会质疑一个“说得头头是道”的对象,却会质疑一个支支吾吾称“这个不好说,建议做个检查”的医生。AI 面对的从来不是“真实的病情”,而是一个紧张、模糊且渴望安慰的你。
JINXINBRAIN
AI 可作为查询工具
但真看病仍需找专业医生
大家为何偏爱询问 AI?因为看医生需挂号、排队、付费,而 AI 秒回、免费且格外善解人意。
但善解人意不等于靠谱,秒回也不代表正确。你可以利用 AI 查询就诊流程或推荐医院,切勿让它出具诊断或制定治疗方案。
(本图片内容系 AI 生成,仅供参考,不代表客观事实)
你的生命,应托付给一位真正会说“我不确定,但我建议你去检查一下”的医生。毕竟,敢于坦言“我不敢确定,需要进一步检查或联合会诊”的医生,才是真正懂得如何救助患者的医者。
尽管 AI 仍在飞速发展,但在当前的临床医学领域,依然需要医生把关。
正如哈佛最新研究通讯作者所言:AI 的价值在于增强(augment)医生,而非替代(replace)医生。
(参考文献 Feldman, M. J., Hoffer, E. P., Conley, J. J., Chang, J., Chung, J. A., Jernigan, M. C., Lester, W. T., Strasser, Z. H., & Chueh, H. C. (2025). Dedicated AI Expert System vs Generative AI With Large Language Model for Clinical Diagnoses. )
本内容仅为健康科普知识,不作为诊疗建议,个体情况因人而异,如有不适请及时就医。
责编:丁青简
一审:鞠雯 终审:梁玉雕
关注我们,看更多科普小知识
👇👇👇
关注我们,让专业与温暖一路随行
(川) 医广【2025】第 09-23-2755 号