百川M4登顶HealthBench,AI问诊能力首次超越GPT
百川M4问鼎HealthBench:当AI不再局限于答题,而是学会了“问诊” 我上周看到一则新闻,差点笑喷——百川智能携手清华推出的Baichuan-M4,在OpenAI主导的医疗基准HealthBench上,包揽三个子榜的冠军,完胜GPT-5.5与Claude Opus 4.7。 诚然,“第一”在国内AI界屡见不鲜,但此次数据颇为亮眼:综合分68.6,甩开GPT-5.5近10分;在最具挑战性的Hard子榜中,优势更是拉大到15.9分。这绝非小胜,而是绝对压制。 值得注意的是其幻觉率仅3.3%,对比之下GPT-5.5为3.8%,Claude Opus 4.7达6.9%,就连DeepSeek-V4-Pro也有9.8%。在医疗领域,所谓的“幻觉”往往意味着致命风险。 驱使我撰写此文的核心,并非单纯追求高分,而是百川正在攻克一个核心难题:AI如何跨越从“会做题”到“会看病”的鸿沟? 一、HealthBench究竟是个什么样的榜单? 首先得厘清该榜单的背景,否则数据便无从谈起。 HealthBench是OpenAI于2025年5月推出的开源医疗AI评估基准(论文编号arxiv:2505.08775)。其核心逻辑很简单:过往评测多侧重于选择题(如USMLE、MedQA),但真实问诊并非做题,而是涉及交流、追问、判断与决策。 因此,HealthBench设置了5000轮多轮临床对话,集结了60国262名执业医生制定的4.8万条评分细则,从准确性、完整性、语境感知、沟通质量及指令遵循五个维度进行考核。这不再考查死记硬背,而是检验你在真实诊疗对话中的可靠性。 它包含三个子榜单: ● HealthBench(综合榜):涵盖全部5000个对话的整体表现 ● HealthBench Hard:精选1000个高难度对决,重点考察高风险及急诊场景下的复杂临床推理 ● HealthBench Professional:针对临床医生使用场景的专业评测,由525名医生设计任务,覆盖临床咨询、病历书写及医学研究 据IT之家6月22日消息,M4在这三个榜单的具体得分如下: 评测维度 Baichuan-M4 GPT-5.5 Claude Opus 4.7 DeepSeek-V4-Pro 综合 68.6 58.4 54.1 51.0 Hard 49.7 33.8 26.1 19.5 Professional 55.1 51.8 50.5 28.4 幻觉率↓ 3.3% 3.8% 6.9% 9.8% 数据