百川M4登顶HealthBench，AI问诊能力首次超越GPT

发布时间：2026-06-24 12:15阅读：2

百川M4问鼎HealthBench：当AI不再局限于答题，而是学会了“问诊” 我上周看到一则新闻，差点笑喷——百川智能携手清华推出的Baichuan-M4，在OpenAI主导的医疗基准HealthBench上，包揽三个子榜的冠军，完胜GPT-5.5与Claude Opus 4.7。诚然，“第一”在国内AI界屡见不鲜，但此次数据颇为亮眼：综合分68.6，甩开GPT-5.5近10分；在最具挑战性的Hard子榜中，优势更是拉大到15.9分。这绝非小胜，而是绝对压制。值得注意的是其幻觉率仅3.3%，对比之下GPT-5.5为3.8%，Claude Opus 4.7达6.9%，就连DeepSeek-V4-Pro也有9.8%。在医疗领域，所谓的“幻觉”往往意味着致命风险。驱使我撰写此文的核心，并非单纯追求高分，而是百川正在攻克一个核心难题：AI如何跨越从“会做题”到“会看病”的鸿沟？一、HealthBench究竟是个什么样的榜单？首先得厘清该榜单的背景，否则数据便无从谈起。 HealthBench是OpenAI于2025年5月推出的开源医疗AI评估基准（论文编号arxiv:2505.08775）。其核心逻辑很简单：过往评测多侧重于选择题（如USMLE、MedQA），但真实问诊并非做题，而是涉及交流、追问、判断与决策。因此，HealthBench设置了5000轮多轮临床对话，集结了60国262名执业医生制定的4.8万条评分细则，从准确性、完整性、语境感知、沟通质量及指令遵循五个维度进行考核。这不再考查死记硬背，而是检验你在真实诊疗对话中的可靠性。它包含三个子榜单： ● HealthBench（综合榜）：涵盖全部5000个对话的整体表现 ● HealthBench Hard：精选1000个高难度对决，重点考察高风险及急诊场景下的复杂临床推理 ● HealthBench Professional：针对临床医生使用场景的专业评测，由525名医生设计任务，覆盖临床咨询、病历书写及医学研究据IT之家6月22日消息，M4在这三个榜单的具体得分如下：评测维度 Baichuan-M4 GPT-5.5 Claude Opus 4.7 DeepSeek-V4-Pro 综合 68.6 58.4 54.1 51.0 Hard 49.7 33.8 26.1 19.5 Professional 55.1 51.8 50.5 28.4 幻觉率↓ 3.3% 3.8% 6.9% 9.8% 数据

← 上一篇：2026AI教育蓝图下一篇：2026年6月深圳AI单人公司政策实施,OPC注册攻略:补贴+步骤全解析! →