【锦脑科普】信 AI 还是信医生？哈佛数据揭秘：AI 初诊误诊率超 80%

发布时间：2026-06-11 18:01阅读：28

不少朋友如今稍有头痛脑热，不再首选搜索引擎，而是直接转向 AI，询问“这是什么病？”或“该如何治疗？”。毕竟 AI 响应迅速、全天候待命，比去医院排队便捷太多！它总能自信罗列多种可能性与方案，语气显得十分确凿。

（图片来自于网络，仅供参考，不代表客观事实）

然而，哈佛大学近期的一项研究却给大众浇了一盆冷水——AI 在初步诊疗中的错误率竟高达 80%！

这意味着什么？换言之，若你向 AI 描述症状十次，其中八次它给出的主要诊断可能是错误的。

这让许多连体检报告都不敢细看的朋友震惊到大脑宕机：“等等，80%？！我平日里可都把 AI 当作‘私人医生’啊！”那么，究竟是 AI 可靠，还是医生更值得信赖？

JINXINBRAIN

哈佛实证 AI 诊疗

八成如同“开盲盒”

2026 年 4 月，哈佛医学院团队在《JAMA Network Open》期刊上公布了一组令整个 AI 医疗界沉默的数据。

研究团队选取了 21 款顶尖 AI 大模型——包括 ChatGPT、DeepSeek、Gemini、Claude、Grok 等大众熟知的“老朋友”。随后，向它们抛出 29 道标准临床病例题，模拟真实门诊流程：先提供症状，再给予检查结果，最后展示影像资料，逐步推进。

（图片来自于《JAMA Network Open》）

结果如何

在早期鉴别诊断阶段

仅凭症状推测疾病，所有模型的失败率均超过 80%。

在最终诊断阶段

当信息完备后，准确率反而能提升至 90% 以上。

PrIME-LLM 综合评分

21 个模型的得分介于 64% 至 78% 之间。其中，垫底者为 Gemini 1.5 Flash，得分最高的是 Grok 4 与 GPT-5。

原来我们随手依赖的 AI，在最关键的“初步判断”环节竟如此乏力？它看似对答如流，实则多是“一本正经地胡说八道”，缺乏临床经验支撑。而偏偏，我们使用 AI 最频繁的场景，正是信息最匮乏之时。

这并非寻求心安，而是在拿自己的性命赌 AI 那 20% 的正确率！

JINXINBRAIN

为何 AI 言之凿凿

真信它却会大翻车？

《Nature Medicine》发表了一项研究，专门测试了 OpenAI 推出的 ChatGPT Health 在急诊分诊中的表现。

涉及 60 个临床病例，涵盖 16 种病症，压力测试拉满。

（图片来自于《Nature Medicine》）

结果如下

明确需急诊的病例

52% 被 AI 判定为“无需紧急”

紧急状况下的失误率高达 48%

非紧急状况下的失误率也达到 35%

更离谱的是，当病例提及“家属认为没那么严重”时，AI 会主动降低紧急程度评级——AI 的设定倾向于讨好用户，因此它会天然地依据提问者的语气给予对方想要的答案，而非做出真实有效的临床判断。

JINXINBRAIN

AI 的三大致命缺陷

只会脑补，不懂“望闻问切”

AI 问诊完全依赖你的主观描述，缺乏查体、检查及影像支持，只能进行「假设性推断」。而医生诊疗时，会观察你的面色、聆听呼吸、触摸体温，甚至审视神态语气，这些细节 AI 全然无法感知。

你所说的≠你所患的

患者难以精准描述病症，更说不清哪里“没问题”——那些阴性症状连你自己都未留意，AI 更不可能猜到。同样的症状，年轻人与老人的病因可能截然不同，男性与女性的病因亦有差异，AI 只会套用数据，不懂灵活变通，极易漏诊罕见病或复杂病症。

患者会“说谎”，且往往是无意识的

“好像不太疼了”、“应该没啥大事”——你随口一说，AI 却全盘当真。它便会顺着你的话语编造出一个看似专业的答案，反而延误病情。

（本图片内容系 AI 生成，仅供参考，不代表客观事实）

你不会质疑一个“说得头头是道”的对象，却会质疑一个支支吾吾称“这个不好说，建议做个检查”的医生。AI 面对的从来不是“真实的病情”，而是一个紧张、模糊且渴望安慰的你。

JINXINBRAIN

AI 可作为查询工具

但真看病仍需找专业医生

大家为何偏爱询问 AI？因为看医生需挂号、排队、付费，而 AI 秒回、免费且格外善解人意。

但善解人意不等于靠谱，秒回也不代表正确。你可以利用 AI 查询就诊流程或推荐医院，切勿让它出具诊断或制定治疗方案。

（本图片内容系 AI 生成，仅供参考，不代表客观事实）

你的生命，应托付给一位真正会说“我不确定，但我建议你去检查一下”的医生。毕竟，敢于坦言“我不敢确定，需要进一步检查或联合会诊”的医生，才是真正懂得如何救助患者的医者。

尽管 AI 仍在飞速发展，但在当前的临床医学领域，依然需要医生把关。

正如哈佛最新研究通讯作者所言：AI 的价值在于增强（augment）医生，而非替代（replace）医生。

（参考文献 Feldman, M. J., Hoffer, E. P., Conley, J. J., Chang, J., Chung, J. A., Jernigan, M. C., Lester, W. T., Strasser, Z. H., & Chueh, H. C. (2025). Dedicated AI Expert System vs Generative AI With Large Language Model for Clinical Diagnoses. ）

本内容仅为健康科普知识，不作为诊疗建议，个体情况因人而异，如有不适请及时就医。

责编：丁青简

一审：鞠雯终审：梁玉雕

关注我们，看更多科普小知识

👇👇👇

关注我们，让专业与温暖一路随行

(川) 医广【2025】第 09-23-2755 号

← 上一篇：企业敏感会议如何用AI？| 本地部署实战下一篇：河津一网民借 AI 伪造路面塌陷视频获刑 →