标签

AI单独碾压医生联手却拉胯,医学AI的残酷真相

发布时间:2026-05-09 01:29来源:微信阅读:5

全文字数:约 3,200 字预估阅读时间:8-10 分钟摘要:哈佛发表在《Science》上的最新研究指出,AI在急诊分诊中的准确率达到了67%,高于人类医生的50%-55%。然而,本文关注的重点并非AI的胜利,而是它首次进入真实临床环境后暴露出的短板:缺乏影像支持、历史病史处理不足以及对非语言信号的盲区。结合JAMA研究中‘医生+AI组合反不如AI单独’的结论以及张文宏教授的警示,本文呼吁:AI最大的隐患不是犯错或产生幻觉,而是导致医生丧失怀疑精神,陷入盲从。

上周,一篇哈佛团队发表在《Science》上的文章在医生圈引发了热议。标题大意是:AI在急诊分诊中的诊断准确率已超越人类医师。

数据相当直观:在患者刚入院、信息极度匮乏的初期分诊阶段,OpenAI的o1模型给出正确或近似正确诊断的比例为67%,而在同等条件下,两位人类医生仅为50%至55%。

试想一下,如果把这场比作一场考试,满分100分,AI得了67分,医生得了50到55分。

按照常理,这时候你或许该感到焦虑,转发一下,感叹一句‘医生要失业了’。

然而,读完这篇论文后,我的反应恰恰相反——我感到的是兴奋。

而且,我兴奋的并非是AI考了67分,恰恰相反,我兴奋的是:它只考了67分。

别急,听我解释。

这项发表在《Science》上的研究,并非那种简单的‘AI做几道选择题’的测试。它更像是一场正规的医学能力考核,且涵盖了多科内容。

研究团队让OpenAI的o1模型完成了五项不同的临床任务:阅读病历、做出诊断、选择后续检查、评估预后以及制定治疗方案。这五门功课考下来,AI的表现均持平或优于人类医生。

其中有一项特别惊人:临床推理能力评分。评分标准是看诊断逻辑是否通顺、后续安排是否合理。AI在98%的病例中拿满分,而主治医师仅有35%。

没错,98%对35%。

但研究者自己表示,这五科都不是最重要的考试。

第六科——真实急诊模拟,才是重头戏。

研究团队从波士顿贝斯以色列女执事医疗中心的急诊室选取了76名真实患者的电子病历,并将每个病例拆分为三个阶段,模拟真实的急诊流程:

🔹第一阶段:病人刚进急诊,护士登记主诉及生命体征,信息极少。 🔹第二阶段:医生介入评估,信息增多。 🔹第三阶段:检查结果陆续出炉,信息相对完整。

AI和两位人类医生拿到的是完全相同的电子病历文本。结果显示:在早期分诊阶段,AI领先医生超过10个百分点;信息充分后,差距虽有缩小,但AI依然保持领先。

这里有一个值得深究的案例。有一位病人因肺栓塞入院,经抗凝治疗后症状反而加重。两位人类医生都认为是抗凝效果不佳,但AI注意到了一个细节——病人有狼疮病史。AI据此推测,肺部炎症可能源于狼疮而非单纯的栓塞。最终证实AI判断正确。

这种将病史中被忽略的线索串联起来的能力,正是大模型在罕见病诊断中最被看好的方向。我之前专门写过一篇,感兴趣的朋友可以回看:

👉AI诊断罕见病,终于不再“瞎猜”了 | Nature最新突破。

今天我们继续聚焦急诊场景。

好,数据摆完了。单看这些数字,很容易得出一个结论:AI比医生强。

但这个结论,恰恰是我认为最需要警惕的。

看完上述数据,你或许已经开始焦虑。

别急。我说兴奋,是因为这次研究的设计与以往‘AI刷医学考试’的论文有着本质不同。

以往的AI医学研究,大多让模型做标准化病例:整理好的、干净的、有明确答案的教科书式案例。这叫开卷考试做模拟题。AI在那种场景下考高分,说明不了太多问题。

而此次哈佛研究使用的是贝斯以色列女执事医疗中心急诊室的真实患者电子病历。研究者用‘real-world, messy’(现实世界、乱糟糟)来形容这些数据。信息可能不完整,存在偏差,护士记录的主诉可能与病人真实表达相去甚远。这才是‘做真题’。

而AI在‘真题’上考了67分。

试想,如果一个医学生只做模拟题能考95分,突然去急诊面对真实病人只能考67分——你会觉得他‘碾压了老医生’吗?还是会觉得‘嗯,这孩子终于面对现实了’?

我的感受是后者。

更重要的是,这篇论文很诚实地揭示了AI在这场‘真题’中的局限性:它尚未跨越三条边界。

第一,缺乏影像。

整个实验中,AI仅获得文本信息——电子病历中的文字。没有CT、超声或X光。而急诊中大量关键诊断(如肺栓塞、主动脉夹层、骨折)高度依赖影像。纯靠文字,相当于蒙眼看病。

第二,缺乏长期病史。

急诊停留通常只有几小时。AI处理的是这几小时的信息。研究者Adam Rodman直言:‘如果是住院几天的病人,信息量增大,我认为AI表现会下降。’

第三,缺乏非语言信号。

病人脸色发灰、大汗淋漓、烦躁不安——人类医生一秒捕捉,AI却完全‘看’不到。研究者比喻,此时的AI更像是‘根据文字材料提供第二意见的远程会诊专家’,而非站在床边的急诊医生。

因此,AI的67分是在受限场景下考出的。但这恰恰让我兴奋——AI终于不再躲藏,开始啃真实临床的硬骨头了。67分不是终点,而是起点。

别忘了,此次使用的o1模型是2024年底发布的。Harvard研究者Thomas Buckley说:‘在机器学习的时间尺度里,这已经是古代史了。’新模型只会更强。问题在于:当AI越来越强,医生准备好了吗?

在所有对哈佛研究的评论中,有一条被许多人忽视,却可能是整篇论文最危险的暗线。

英国谢菲尔德大学Wei Xing博士指出:实验数据显示,当医生看到AI答案后,可能无意识地服从而非独立思考。

原话是:‘随着AI在临床中越来越常规化,这种倾向会愈发显著。’

这就是心理学上的‘自动化偏差’。

打个比方。开车用导航,刚开始你会看路牌、凭经验判断。但用久了,导航说左转你就左转,哪怕隐约觉得不对,也不愿质疑。直到导航把你带进死胡同。

临床中也是。AI说是肺栓塞,你还会坚持怀疑主动脉夹层吗?AI鉴别诊断列表里没有某个罕见病,你会想到吗?

当AI准确率达到67%、82%甚至更高,医生质疑AI的心理门槛会越来越高。每一次不加质疑的服从,都是临床判断肌肉的萎缩。

这不是我一个人的担忧。

2024年初,国家传染病医学中心主任张文宏教授专门谈及此事。

他明确表示,反对将AI系统性地引入医院日常诊疗。

张文宏说,他个人用AI是让AI先看一遍,然后凭借经验一眼看出AI哪里错了。但他担忧的是:若医生从实习起就未经完整诊断思维训练,直接借助AI获得结论,将无法鉴别AI诊断的正误。

这句话细品一下。

张文宏能‘一眼看出AI哪里错’,源于几十年的临床积累。但若住院医师从第一天起依赖AI给答案,永远不会建立‘一眼看出错误’的能力。这是技术便利背后的深层隐患。

张文宏所言,与哈佛论文的暗线如出一辙——一个发生在科研数据里,一个发生在住院医师培养现场。

AI最大的风险,从来不是出错,而是医生不再怀疑它。

说到这里,你可能觉得:道理都懂,到底用还是不用?

我先给你看另一个实验数据,这可能比哈佛那篇更震撼。

2024年,JAMA Network Open发表的一项随机对照试验,招募了50名美国执业医生。让他们在60分钟内完成最多6个临床病例诊断。一组可用ChatGPT Plus(GPT-4),另一组仅用常规资源(UpToDate、Google等)。

结果:

两组医生之间几乎无差别(差2个百分点,P=0.60,无统计学意义)。

但GPT-4单独做,比两组医生都高出16个百分点(P=0.03,有统计学意义)。

再读一遍这个结果:

医生拿到了一个92分的‘外挂’,最后只考了76分。

换句话说——医生加入后,不是在给AI加分,而是在拖AI后腿。

这才是每个医生真正该反思的问题。

不是‘AI会不会替代我’,而是‘我会不会用AI’?

我做了5期医学AI培训班,接触了几百位来自全国各地的医生。观察发现,医生使用AI时最常犯三个错误:

误区一:把AI当搜索引擎。只丢一句话过去,不看背景,结果像念给专家听却不告诉他病史,只能得到泛泛回答。

误区二:先有结论,再问AI。心里已定是肺炎,只让AI确认,大脑自动筛选信息,支持结论的记住,反对的忽略。AI成了自我确认的工具。

误区三:AI说错就关掉。AI给出意外诊断,第一反应是‘AI瞎说’,而非反思是否漏了什么。

JAMA数据本质上说明:不是AI不够强,是医生还没学会协作。

这就像给了你一辆赛车,你却还在用骑自行车的方式开。不是车不好,是你没学会开。

那怎么办?建议只有三条:

第一,把AI当资深同事会诊意见,而非判决书。参考、复核,像看会诊意见一样看AI输出。

第二,学会‘喂数据、读输出、挑毛病’。给AI完整上下文,重点看它给出了什么你没想到的,拓宽鉴别诊断范围。

第三,越用AI,越要刻意训练独立判断。先自己想,再看AI答案,对比差异。保持‘独立思考在先’,AI只是校验工具。

Harvard共同作者Adam Rodman提出了‘三元医疗模式’:未来的医疗是‘医生+病人+AI’的三角关系。

在这个三角里,AI提供信息和推理,病人提供症状和偏好,而医生负责最终判断、承担责任及兜底。

AI替代不了医生,但前提是——你得有能力兜得住。

回到开头的问题。

哈佛《Science》论文出来后,很多人说‘AI比医生强,医生要被替代’。

而我的反应是兴奋。

因为这是AI第一次认真走进真实急诊,面对真实乱数据,诚实地暴露边界。它不再只在标准化考试刷分,开始做真题了。

67分不算高,但趋势不可逆转。

而JAMA文章告诉我们:AI成绩会越来越高,若医生不学会使用,人用了AI也等于白用。

张文宏警告也提醒:若年轻医生从未受过独立诊断思维训练,未来面对92分AI,连错在哪都看不出来。

所以,真正的考试不是给AI的。

真正的考试,是给每一个执业和未来执业的医生的。

你准备好了吗?

AI考多少分不重要,重要的是医生是否意识到——从今天起,医生也在被考。

如果你觉得文章有用,欢迎转发给同事。如果你想系统学习临床和科研中如何用好AI,欢迎关注我的公众号和知识星球‘医学AI思维营’。

刚好最近,我也开设了‘给医学人士的Openclaw课’,手把手教大家养‘小龙虾’,用好AI赋能忙碌的医学工作,第一期已开班,欢迎关注。

我们下篇见。

文中的文章链接:

https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2825395

https://hms.harvard.edu/news/study-suggests-ai-good-enough-diagnosing-complex-medical-cases-warrant-clinical-testing