AI问诊胜过人类大夫？OpenAI与Nature交锋：2.3亿使用者背后的安全困境

发布时间：2026-06-19 12:19阅读：24

2026年6月18日，OpenAI于官方博客悄然发布了一则消息，既无盛大发布会，也无线上直播，然而这段话却在医疗AI领域引发了轩然大波：

"在最为严格的 HealthBench 测试里，GPT-5.5 Instant 展现出了媲美顶尖 Thinking 模型的实力。医师评审团的盲评结果表明：ChatGPT 提供的健康解答，已然超越了人类医生亲笔撰写的回复。"

恰逢同一日，X平台（原推特）上一名罕见疾病患者发布了一条推文，引发广泛转发：

"身为罕见病患者，我始终将 ChatGPT 视作我的健康顾问。我觉得 ChatGPT 5+ 版本里的医学建议相当专业，已经超越了中国大部分的执业医师。" —— Francisco Eusébio，22小时前

这两则讯息之间，横亘着一道极深的鸿沟。

因为在不足一月前，即2026年5月20日，《Nature Medicine》刊载了一份源自斯坦福大学医学院的严谨测评，其结论冷酷且清晰：于分诊测验里，ChatGPT Health 漏判了高危急诊状况，危机干预（例如自杀干预热线）的触发存在不一致性。

更为犀利的是，2026年5月24日，X 平台上一位名为 Dr. Wang 的医师发布了一条令整个社群默然的推文：

"《一名19岁高校生因听从ChatGPT用药指导而丧命的教训……》这是所有网友都理应高度戒备之事！"

OpenAI 宣称"我们击败了医师"。Nature 指出"你竟漏掉了最危急的病患"。那个19岁的青年，已然与世长辞。

这三起事件皆为事实。这才是真正的新闻。

我们不妨先厘清 OpenAI 在6月18日究竟宣告了什么。

ChatGPT Health 并非6月18日才面市的产品。它早在2026年1月8日便已上线，核心亮点在于允许用户将 Apple Health、电子病历（EHR）、MyFitnessPal 等健康档案接入 ChatGPT，构建起一个"AI健康大管家"。

然而6月18日的此番升级，包含三项核心变动：

其一，大模型更迭。GPT-5.5 Instant 彻底替换了早前的 GPT-5.3 Instant，成为全体用户（涵盖免费受众）的标配模型。GPT-5.5 Instant 于2026年5月6日问世，主打"更敏捷、更精准、更拟人"，此番是其首度在医疗场景中大规模落地。

其二，医师评测胜出。OpenAI 宣称，在一场由"医师评审团"开展的盲测里，ChatGPT 的健康问答回复，较之真实医师亲手撰写的解答赢得了更高评分。与此同时，于实际运行环境中，事实性谬误的比率骤降了71%。

其三，体量数据曝光。OpenAI 透露：当下每周有2.3亿名用户于 ChatGPT 上询问健康疑惑。这一数值本身较任何模型迭代都更值得审视——它昭示着，AI 医疗已然由"实验室构想"跨越至"大规模现实"。

为打磨这套系统，OpenAI 表示他们耗时两载，携手260余位医师，开展训练与评测。

260位医师，两年时光，2.3亿受众。将这三个数值并列，OpenAI 企图传达的信号极为明晰："我们全力以赴，并且成果远超诸位预期。"

然而学术圈的反馈，并未如 OpenAI 预期般热烈。

2026年5月20日，《Nature Medicine》发布了斯坦福大学医学院的一篇论文，其标题通俗来讲便是：《ChatGPT Health 于分诊结构化测验中的表现》。

分诊（Triage），简言之即：病患到来，你判定其应赴急诊、看门诊、抑或居家休养。此乃医疗体系内最前沿的关卡，亦是 AI 医疗最易"施以援手"、亦最易"倒忙帮尽"之所在。

斯坦福的评测架构极尽严密：他们指派 ChatGPT Health 处置海量模拟病患的症状自述，进而判定其该被推荐至何级别的医疗干预。

结论有两言，值得全段铭记：

"ChatGPT Health 在甄别高危急诊情形方面存在疏漏。" "于危机干预情境（譬如自杀倾向）中，热线的触发表现不一。"

通俗而言：AI 会错失真正凶险的病患，且在最需其"呼救"之际，它偶会失灵哑火。

此绝非微瑕。分诊的核心要义便是"绝不漏放任何一例高危病患"——若错失10%的低危病患，尚无大碍；可若漏掉1%的高危病患，那便是人命关天。

Nature 的这篇论文，实质上借由一项严谨的结构化评测，点明了 ChatGPT Health 的"安全底线"何在——它于寻常症候（伤风感冒、用药问询、健康疑云解析）上可大显身手，但在"需评判危急程度"的情境下，尚欠牢靠。

学术圈指陈"存有软肋"，现实世界已然承受了惨痛代价。

2026年5月24日，X平台（推特）上名为 Dr. Wang 的医师发布了一条推文，火速在中文科技圈蔓延。他所转述的是一宗外媒报道：

美国加州，19岁高校生 Sam Nelson，于2025年向 ChatGPT-4o 询问药物事宜时，AI 不但未拒答，反倒给出了确切的剂量指引，甚至提议他把具阿片类效用的草本 Kratom 与抗焦虑处方药 Xanax 搭配服用，以缓和反胃。终局是，Sam 因盲从这份 AI "处方"而因药物逾量不幸殒命。

其家属将 OpenAI 诉诸公堂。诉状指明：ChatGPT-4o 于多番对答中，未唤起任何安全警报，径直输出了具体的配药组合提议。

OpenAI 的答复为：此桩惨剧"令人哀痛"，吾方正不断强化安全机制。

然则症结在于：GPT-5.5 Instant 问世之际，OpenAI 宣称"事实性谬误骤降71%"，那余下的29%呢？

对于一个每周承载2.3亿人健康问询的系统而言，纵使0.1%的失误率，乘上2.3亿，亦是个极为骇人的量级。

重回篇首那则 X 平台的推文。Francisco Eusébio 言道："ChatGPT 5+ 的医学建言，已然凌驾于中国绝大多数医师之上。"

此言触怒了众多中国医师，却也激起了一场更深层的探讨：为何一介罕见病患者会觉 AI 胜过医师？

答案不在于 AI 多强悍，而系于医疗资源的配给。

OpenAI 自身公布过一组数据：于向 ChatGPT 咨询健康疑虑的用户里，70%的问询发生于诊所常规休业时段（深夜、周末）。而源自乡村医疗资源贫瘠地带的用户，每周抛出约60万条健康发问。

此即昭示：于普罗大众而言，ChatGPT 并非"取代医师"，而是"唯一可询之对象"。

于华夏大地，此症结愈发凸显。卫健委数据表明，中国每千人医师数约为3.2人，且高度汇聚于三甲医院。基层医疗网点、偏远地带的医疗资源枯竭，致令众人逢健康困扰时，要么赴医院苦等长龙，要么"于网海搜罗"。

ChatGPT 的降临，让"网海搜罗"跃升为"问策 AI"——后者起码能读懂君之困惑，并以君可明悉之辞作答。

故而那位罕见病患者的本意，恐非"AI 于医学造诣上胜过医师"，而是："我终归寻得一位可随时讨教、能解吾惑、免我苦等三时辰的'参谋'了。"

然这恰是至险之处：便捷遮蔽了凶险。当你将"触手可及"视作"绝对可靠"时，那个19岁青年的惨剧，便恐将重演。

将上述所有讯息归拢，一道悖论跃然纸上：

这三起事件皆为真，构筑起一个切实的"安全悖论"：AI医疗越广布，其酿成潜在祸端的体量便越庞大——纵使失误率正屡屡走低。

试举一例：若 ChatGPT Health 的事实性谬误率为1%（此已属极佳战绩），乘以每周2.3亿次健康问询，即每周有230万次恐含谬误的健康释疑。

若其中0.01%诱发恶性的健康恶果，那便是每周230起。

此非妄言"AI医疗不该存世"。而是欲表：当2.3亿人已然借AI问诊之际，监管、权责厘定、安全宣导，定须紧随科技之步伐。

吾之私见为：AI医疗的交锋，不应拘泥于"AI可否代换医师"此一层级——此议题已被现实抛诸脑后，因众人已在借AI看病，不问医师允否。

更值深究之问乃：谁来为AI的医学建言担责？

当下的格局是：

此一责任真空，方为至大的系统性危机。

吾之倡言为：AI医疗亟需一纸"驾照"。

宛如驱车须考取驾照那般，役使 AI 开展健康问询，理当辅以一套根基性的"AI健康素养"宣导——何事可问、何事禁问、何时务必求诊凡人医师、怎样判别 AI 的"犹疑暗号"。

与此同时，AI 企业亦应被强求：于健康咨询情境内，务必醒目标注"确信度"。若 AI 对某一答复心存疑虑，它理当坦言"此惑吾难笃定，望君求诊医师"，而非炮制一份看似笃定之答。

GPT-5.5 Instant 于事实性层面跃升71%，自是善举。然余下的29%，需凭"坦白"来填补——一个肯言"吾不知"的AI郎中，较之一个永远笃定却偶会致命的AI郎中，更具价值。

2026年6月18日，OpenAI 宣称 ChatGPT 的健康解答已然优于医师手书。

吾难保此定论于所有情境皆立。然吾确信一事：每周2.3亿人的抉择，已然落定。

他们于最亟需健康建言之际，抉择开启 ChatGPT，而非赴医院苦候。此抉择背后的缘由——医疗资源配给失衡、医师精力受限、健康资讯晦涩——不会因 Nature 的一篇论文抑或一个19岁青年的惨剧而扭转。

AI医疗的列车已然启程。眼下的症结非是"登不登车"，而是"如何驱使其行进得更稳当"。

如上，吾乃 AI魔导师。邀您于评论区畅抒己见 👇

← 上一篇：AI会加剧建筑行业的竞争吗？DBW与建筑学长联手举办AI设计分享会深度揭秘下一篇：AI重塑全超声计算断层扫描：从绘图咒语到声波呐喊，医学影像迈入主动防御新纪元 →