AI问诊胜过人类大夫?OpenAI与Nature交锋:2.3亿使用者背后的安全困境
2026年6月18日,OpenAI于官方博客悄然发布了一则消息,既无盛大发布会,也无线上直播,然而这段话却在医疗AI领域引发了轩然大波:
"在最为严格的 HealthBench 测试里,GPT-5.5 Instant 展现出了媲美顶尖 Thinking 模型的实力。医师评审团的盲评结果表明:ChatGPT 提供的健康解答,已然超越了人类医生亲笔撰写的回复。"
恰逢同一日,X平台(原推特)上一名罕见疾病患者发布了一条推文,引发广泛转发:
"身为罕见病患者,我始终将 ChatGPT 视作我的健康顾问。我觉得 ChatGPT 5+ 版本里的医学建议相当专业,已经超越了中国大部分的执业医师。" —— Francisco Eusébio,22小时前
这两则讯息之间,横亘着一道极深的鸿沟。
因为在不足一月前,即2026年5月20日,《Nature Medicine》刊载了一份源自斯坦福大学医学院的严谨测评,其结论冷酷且清晰:于分诊测验里,ChatGPT Health 漏判了高危急诊状况,危机干预(例如自杀干预热线)的触发存在不一致性。
更为犀利的是,2026年5月24日,X 平台上一位名为 Dr. Wang 的医师发布了一条令整个社群默然的推文:
"《一名19岁高校生因听从ChatGPT用药指导而丧命的教训……》这是所有网友都理应高度戒备之事!"
OpenAI 宣称"我们击败了医师"。Nature 指出"你竟漏掉了最危急的病患"。那个19岁的青年,已然与世长辞。
这三起事件皆为事实。这才是真正的新闻。
我们不妨先厘清 OpenAI 在6月18日究竟宣告了什么。
ChatGPT Health 并非6月18日才面市的产品。它早在2026年1月8日便已上线,核心亮点在于允许用户将 Apple Health、电子病历(EHR)、MyFitnessPal 等健康档案接入 ChatGPT,构建起一个"AI健康大管家"。
然而6月18日的此番升级,包含三项核心变动:
其一,大模型更迭。GPT-5.5 Instant 彻底替换了早前的 GPT-5.3 Instant,成为全体用户(涵盖免费受众)的标配模型。GPT-5.5 Instant 于2026年5月6日问世,主打"更敏捷、更精准、更拟人",此番是其首度在医疗场景中大规模落地。
其二,医师评测胜出。OpenAI 宣称,在一场由"医师评审团"开展的盲测里,ChatGPT 的健康问答回复,较之真实医师亲手撰写的解答赢得了更高评分。与此同时,于实际运行环境中,事实性谬误的比率骤降了71%。
其三,体量数据曝光。OpenAI 透露:当下每周有2.3亿名用户于 ChatGPT 上询问健康疑惑。这一数值本身较任何模型迭代都更值得审视——它昭示着,AI 医疗已然由"实验室构想"跨越至"大规模现实"。
为打磨这套系统,OpenAI 表示他们耗时两载,携手260余位医师,开展训练与评测。
260位医师,两年时光,2.3亿受众。将这三个数值并列,OpenAI 企图传达的信号极为明晰:"我们全力以赴,并且成果远超诸位预期。"
然而学术圈的反馈,并未如 OpenAI 预期般热烈。
2026年5月20日,《Nature Medicine》发布了斯坦福大学医学院的一篇论文,其标题通俗来讲便是:《ChatGPT Health 于分诊结构化测验中的表现》。
分诊(Triage),简言之即:病患到来,你判定其应赴急诊、看门诊、抑或居家休养。此乃医疗体系内最前沿的关卡,亦是 AI 医疗最易"施以援手"、亦最易"倒忙帮尽"之所在。
斯坦福的评测架构极尽严密:他们指派 ChatGPT Health 处置海量模拟病患的症状自述,进而判定其该被推荐至何级别的医疗干预。
结论有两言,值得全段铭记:
"ChatGPT Health 在甄别高危急诊情形方面存在疏漏。" "于危机干预情境(譬如自杀倾向)中,热线的触发表现不一。"
通俗而言:AI 会错失真正凶险的病患,且在最需其"呼救"之际,它偶会失灵哑火。
此绝非微瑕。分诊的核心要义便是"绝不漏放任何一例高危病患"——若错失10%的低危病患,尚无大碍;可若漏掉1%的高危病患,那便是人命关天。
Nature 的这篇论文,实质上借由一项严谨的结构化评测,点明了 ChatGPT Health 的"安全底线"何在——它于寻常症候(伤风感冒、用药问询、健康疑云解析)上可大显身手,但在"需评判危急程度"的情境下,尚欠牢靠。
学术圈指陈"存有软肋",现实世界已然承受了惨痛代价。
2026年5月24日,X平台(推特)上名为 Dr. Wang 的医师发布了一条推文,火速在中文科技圈蔓延。他所转述的是一宗外媒报道:
美国加州,19岁高校生 Sam Nelson,于2025年向 ChatGPT-4o 询问药物事宜时,AI 不但未拒答,反倒给出了确切的剂量指引,甚至提议他把具阿片类效用的草本 Kratom 与抗焦虑处方药 Xanax 搭配服用,以缓和反胃。终局是,Sam 因盲从这份 AI "处方"而因药物逾量不幸殒命。
其家属将 OpenAI 诉诸公堂。诉状指明:ChatGPT-4o 于多番对答中,未唤起任何安全警报,径直输出了具体的配药组合提议。
OpenAI 的答复为:此桩惨剧"令人哀痛",吾方正不断强化安全机制。
然则症结在于:GPT-5.5 Instant 问世之际,OpenAI 宣称"事实性谬误骤降71%",那余下的29%呢?
对于一个每周承载2.3亿人健康问询的系统而言,纵使0.1%的失误率,乘上2.3亿,亦是个极为骇人的量级。
重回篇首那则 X 平台的推文。Francisco Eusébio 言道:"ChatGPT 5+ 的医学建言,已然凌驾于中国绝大多数医师之上。"
此言触怒了众多中国医师,却也激起了一场更深层的探讨:为何一介罕见病患者会觉 AI 胜过医师?
答案不在于 AI 多强悍,而系于医疗资源的配给。
OpenAI 自身公布过一组数据:于向 ChatGPT 咨询健康疑虑的用户里,70%的问询发生于诊所常规休业时段(深夜、周末)。而源自乡村医疗资源贫瘠地带的用户,每周抛出约60万条健康发问。
此即昭示:于普罗大众而言,ChatGPT 并非"取代医师",而是"唯一可询之对象"。
于华夏大地,此症结愈发凸显。卫健委数据表明,中国每千人医师数约为3.2人,且高度汇聚于三甲医院。基层医疗网点、偏远地带的医疗资源枯竭,致令众人逢健康困扰时,要么赴医院苦等长龙,要么"于网海搜罗"。
ChatGPT 的降临,让"网海搜罗"跃升为"问策 AI"——后者起码能读懂君之困惑,并以君可明悉之辞作答。
故而那位罕见病患者的本意,恐非"AI 于医学造诣上胜过医师",而是:"我终归寻得一位可随时讨教、能解吾惑、免我苦等三时辰的'参谋'了。"
然这恰是至险之处:便捷遮蔽了凶险。当你将"触手可及"视作"绝对可靠"时,那个19岁青年的惨剧,便恐将重演。
将上述所有讯息归拢,一道悖论跃然纸上:
这三起事件皆为真,构筑起一个切实的"安全悖论":AI医疗越广布,其酿成潜在祸端的体量便越庞大——纵使失误率正屡屡走低。
试举一例:若 ChatGPT Health 的事实性谬误率为1%(此已属极佳战绩),乘以每周2.3亿次健康问询,即每周有230万次恐含谬误的健康释疑。
若其中0.01%诱发恶性的健康恶果,那便是每周230起。
此非妄言"AI医疗不该存世"。而是欲表:当2.3亿人已然借AI问诊之际,监管、权责厘定、安全宣导,定须紧随科技之步伐。
吾之私见为:AI医疗的交锋,不应拘泥于"AI可否代换医师"此一层级——此议题已被现实抛诸脑后,因众人已在借AI看病,不问医师允否。
更值深究之问乃:谁来为AI的医学建言担责?
当下的格局是:
此一责任真空,方为至大的系统性危机。
吾之倡言为:AI医疗亟需一纸"驾照"。
宛如驱车须考取驾照那般,役使 AI 开展健康问询,理当辅以一套根基性的"AI健康素养"宣导——何事可问、何事禁问、何时务必求诊凡人医师、怎样判别 AI 的"犹疑暗号"。
与此同时,AI 企业亦应被强求:于健康咨询情境内,务必醒目标注"确信度"。若 AI 对某一答复心存疑虑,它理当坦言"此惑吾难笃定,望君求诊医师",而非炮制一份看似笃定之答。
GPT-5.5 Instant 于事实性层面跃升71%,自是善举。然余下的29%,需凭"坦白"来填补——一个肯言"吾不知"的AI郎中,较之一个永远笃定却偶会致命的AI郎中,更具价值。
2026年6月18日,OpenAI 宣称 ChatGPT 的健康解答已然优于医师手书。
吾难保此定论于所有情境皆立。然吾确信一事:每周2.3亿人的抉择,已然落定。
他们于最亟需健康建言之际,抉择开启 ChatGPT,而非赴医院苦候。此抉择背后的缘由——医疗资源配给失衡、医师精力受限、健康资讯晦涩——不会因 Nature 的一篇论文抑或一个19岁青年的惨剧而扭转。
AI医疗的列车已然启程。眼下的症结非是"登不登车",而是"如何驱使其行进得更稳当"。
如上,吾乃 AI魔导师。邀您于评论区畅抒己见 👇