星火医疗V3.5问世：中国AI反超GPT-5.5

发布时间：2026-06-13 12:53阅读：33

新智元报道

顷刻间，医疗大模型领域的魔咒，终于被彻底打破！

在过去两年间，医疗大模型一直是AI落地最受瞩目的赛道，同时也公认是攻克难关最多的领域。

几乎每家科技巨头都推出了号称「能诊疗」的LLM：发布会上对答如流，PPT里数据霸榜。

可是，一旦将其投入实际诊室，医生试用两次后便默默关闭了应用。

究其根本，「能上台展示」与「能实际干活」之间的那道鸿沟，真正跨越者寥寥无几。

然而就在近日，剧情发生了逆转。

飞利浦最新发布的《2026未来健康指数》中，披露了一组极具画面感的数据。

27%的临床医生坦言，在过去九十天里，屏幕中那个曾遭嫌弃的AI，已至少三次协助他们发现了潜在的医疗失误。

但故事并未结束。

就在近期，一家中国企业直接将一份更为硬核的成绩单摆在了桌面上。

6月9日，讯飞医疗正式推出——星火医疗大模型V3.5。

生成病历医生采纳率高达91%、书写耗时缩减52%、累计辅助诊断超12亿次。

这一连串的数字，直接将医疗AI「最难跨越的门槛」踩在脚下。

要理解此次发布的分量，首先需明白它跨越的门槛有多高。医疗是所有AI应用场景中最为严苛的一个，原因有三。

医疗场景几乎零容错

在教育、营销、客服领域，大模型偶尔「一本正经地胡说八道」，代价不过是一次返工。

但在诊室里，一个错误的用药建议、一处遗漏的影像征象，关乎的是人的健康甚至生命。

这意味着医疗大模型不能仅做到「大概率正确」，它必须实现可验证、可溯源、可问责。

真实场景远比演示复杂

发布会上的「AI问诊」，往往发生在安静房间、单人面对麦克风的清晰口述中。

可真实的诊室是何光景？

多位医生、患者、家属同时发言，环境嘈杂，方言混杂，病情陈述断断续续。

那些在录音棚里能完美转写的模型，一进入诊室便「失聪」。

医生的工作流程不容打断

医生最稀缺的是时间，一个需要反复修改、二次校对的AI工具，本质上是在增加负担。

它必须无缝嵌入医生既有的工作流，让人「用了就回不去」，才谈得上真正落地。

这三道难关，过去鲜有医疗大模型能同时跨越。

而星火医疗大模型V3.5的最大价值，恰恰在于它在临床最刚需的几个场景中，同时跨越了这三道坎。

实际上，「实用门槛」的定义十分朴素：

医生在真实临床场景中，拿到AI生成的结果，愿意直接采纳。

在此标准下，星火医疗大模型V3.5在三大核心场景中，交出了硬核数据。

病历书写，是临床医生日常工作中最耗时、最痛苦的环节之一。

许多医生白天看完门诊，晚上还需花费两三个小时补写病历。

星火医疗大模型V3.5，在病历场景实现了全维度技术升级——

突破了多源医患远场识别、多角色定向语音增强、医疗语音识别非自回归架构等多项核心技术。

在医患对话过程中，星火医疗大模型V3.5通过远场多说话人语音识别，实时抓取对话内容，端到端自动生成结构化病历。

结果显示，端到端病历生成合理率达到80%。

应用于真实临床，在多家头部三甲医院中，生成病历的医生采纳率达到91%，病历书写时间缩短52%。

有一组数据十分扎心：一位门诊医生日均接诊100位患者，边接诊边手写录入高质量病历，平均需2.5分钟。

100位患者，意味着每天超过4小时耗在「码字」上。

医生这一职业，正被文书工作活活拖垮。

而使用AI病历生成系统，医患对话结束后30秒，一份同等质量的规范病历自动生成——一天下来，可节省2.8小时。

正因如此，91%的病历采纳率才显得分量十足——

AI生成的病历，超过九成医生看一眼就能直接使用，几乎无需修改。

星火医疗大模型V3.5精准砍掉了一半的文书负担。那些本该属于患者的时间，如今终于得以归还。

影像辅诊是医疗AI最早被寄予厚望、也最容易「翻车」的方向。

放射科医生查看一张CT或MR，需在多个序列间来回对照、结合临床信息判断，再用规范医学语言撰写报告。

星火医疗大模型V3.5凭借多序列联合空间建模和影像-文本跨模态推理，将识别和报告生成打通为一个动作——输出的不仅是「片子上有什么」，还有「意味着什么、下一步怎么办」。

结果，X线、MR报告生成的医生采纳率达75%，影像质控达到专家会诊水准。

75%初看不如91%亮眼，但影像报告的专业性和复杂度远高于文字病历，这是全球医疗大模型首次在真实临床场景跨越此线。

如果说前两者解决的是「效率」，那么循证诊疗助理智能体解决的是「决策质量」。

从事过临床决策支持的人都知道，医生最怕的不是AI「不够聪明」，而是AI「太自信地出错」。

星火医疗大模型V3.5循证诊疗助理智能体，采用了「证据对齐—反思校验—专家强化」的技术路径。

核心在于，每一个诊疗建议都能追溯到权威医学文献，支持多步推理和深度反思。

它覆盖了病历内涵质控、智能用药审核、全科和跨专科辅助诊断等多个刚需场景，背后接入了大量权威诊疗指南和专家共识，同时兼容中国诊疗规范和中西医双诊疗体系。

若寻找一个国际对标——大洋彼岸的OpenEvidence，现估值已达120亿美元。

其凭借循证AI深度嵌入医生工作流，短时间内覆盖了约45%的美国执业医师、服务超过一万家医院。

讯飞的循证诊疗助理智能体做的是同一件事，但具备一个OpenEvidence所没有的差异化优势：

它要做的，是最懂中国医疗体系的那一个。

星火医疗大模型V3.5跨越实用门槛，靠的不是单点取巧，而是底座和算法的硬功夫。

这一次，它在两大工程上拿下了硬突破。

第一件，全国产算力底座上的长文本高效训练。

医疗是天然的长上下文场景：一份完整病历、一段长程随访、一次多轮问诊，动辄上万token。

长文本一长，推理成本和延迟便指数级飙升，这是所有LLM部署进医院都要撞的墙。

在国产算力平台上，星火医疗大模型V3.5率先跑通了DSA（动态稀疏注意力）与MTP（多Token预测）的长文本高效训练。

这两招叠加，直接让医疗长上下文推理吞吐量提升4.5倍。

这意味着，医院和区域医疗机构本地化部署，跑得动、迭代得起。

第二件，16亿人次数据飞轮，转起来了。

如果说算力是发动机，数据就是燃油。而在医疗AI领域，数据的稀缺性和获取难度远超其他行业。

为何通用大模型做不好医疗？因为它们缺乏「行医多年」的经验。

而讯飞医疗，恰恰拥有。

支撑星火医疗大模型V3.5持续迭代的，是一座体量惊人的医疗数据基座：

16亿人次脱敏医疗语音、12亿次真实诊疗沉淀数据，并且平台每日新增超过220万份语音、影像、病历等跨模态真实医疗样本。

这串数字背后，是一套别家难以复刻的飞轮。

海量真实数据训练出更强的模型，更强的模型在医院和C端被更广泛地使用，使用又沉淀出新的高质量数据，反哺下一轮训练。

更重要的是，这些数据让星火医疗大模型V3.5实现了，语音、影像、语义真正融合的医疗多模态。

过去的医疗AI大多是「偏科生」：要么只会语音转写，要么只会看片子，模块之间各干各的。

星火医疗大模型V3.5将医疗语音识别、影像辅诊和医学语义理解的多模态能力进行全面升级，实现语音、影像、病历文本的跨模态对齐——

模型能把医生说的话、看的片子、写的字串成一条完整的临床逻辑链。

正是这种融合，让「听完即生成病历」「看片即生成报告」成为可能。

官方测试显示，在多项关键任务上，星火医疗大模型V3.5的综合能力显著超越GPT-5.5、DeepSeek-V4-Pro、Qwen3.7-Max等主流大模型。

通用大模型再聪明，也补不上医疗场景里那些只有泡在临床里才懂的细节。

这正是垂直医疗大模型的价值所在，也是星火医疗大模型V3.5在国产算力上实现从0到1突破的底气。

说到「超越GPT-5.5」这种话，行业里的人第一反应通常是——「又来了，哪家不说自己第一？」

所以，第三方评测的价值就在这里。

第一张成绩单来自IDC。

IDC发布的《中国医疗大模型技术评估 2026》中，讯飞星火医疗大模型综合实力位列行业第一。

15项核心指标中，12项拿下第一。

报告特别指出，该模型在产品落地性、安全性、规模化应用能力上表现最优。

要知道，IDC这份报告采用任务型实测，考的是住院病历生成、检验检查解读、临床病例分析这些真刀真枪的临床任务——

拿下12项领跑，等于在「实用性」这门主科上被裁判盖了章。

第二张成绩单，来自上海人工智能实验室MedBench智能体评测。

这是覆盖医学语言理解、复杂医学推理、医疗安全与伦理等五大维度的中文医疗大模型权威评测体系。

星火医疗大模型V3.5正式发布的前一天，星火医疗大模型以综合得分98.9的成绩登顶。

尤其是，循证推理、安全校验、多智能体协作等关键能力权威排名领先。

当然，跑分第一不等于产品第一，实验室领先不等于市场领先。

但权威评测综合第一，叠加真实临床91%的医生采纳率——

评测和落地对上了账，这在国内医疗大模型赛道上是头一次。

最关键的问题来了，讯飞医疗大模型究竟谁在用？用了多少？

这是很多医疗AI公司最不愿意被追问的问题。

因为一追问就会发现，很多「行业领先」的产品其实只在几家合作医院里做了试点，距离规模化落地还很远。

讯飞医疗的数据是：覆盖全国806个区县、7.7万余家基层医疗机构，累计辅助诊断超过12亿次。

在医院端，讯飞携手600余家等级医院，其中涵盖50余家中国百强医院、7家十强医院。

这些头部三甲的落地验证完成，等于产品已经过了最严苛的临床检验——如果北京协和、华西这个层级的医院都愿意用，二三线城市的医院会更容易接受。

不仅如此，C端也不能忽视。

讯飞晓医APP下载量突破3000万，稳居国内AI健康管理应用第一梯队。

星火医疗大模型V3.5同步升级了面向居民的能力，多模态咨询（拍照识药、拍检查单解读）、健康档案动态记忆管理、精准个性化咨询。

更妙的是，B+C的双向协同，依托G+B端多年实战积淀，院内成熟的临床能力、基层服务经验全面赋能C端，在体检报告解读、慢病管理等核心场景打通健康管理闭环;

在此之上，讯飞医疗还搭建了集居民端、医生端、管理端于一体的区域健康管理平台，并完成规模化落地——扎根现有医疗体系，做区域健康管理的新基建。

把这个闭环放进时代背景里看，确定性还会被进一步放大。

国务院《关于深入实施“人工智能+”行动的意见》已明确提出，到2027年，新一代智能终端、智能体等应用普及率超70%，2030年超90%。

政策红利、进口替代、自主可控，三股力量正同时为国产医疗大模型铺路。

短期看院内成熟产品放量，中期看循证智能体与大模型调用的新模式，长期看C端健康生态的流量变现。

一条从「源头技术创新」到规模化营收的路径，已经清晰可见。

回到最初那个朴素的问题：医生愿不愿意用，并签上自己的名字？

91%的采纳率给出了答案。我们或许正在见证一个临界点。

在此之前，医疗大模型是一场关于未来的精彩演示；在此之后，它开始变成诊室里一件具体、可靠、医生敢用的工具。

从「能演示」到「临床敢用」，看似一步之遥，却是医疗AI从概念走向产业的惊险一跃。

星火医疗大模型V3.5，正是迈出这一跃的国产标杆。它证明了一件事：在全国产算力的底座上，中国完全有能力训练出世界一流、且真正能落地的专业医疗大模型。

当AI开始真正减轻医生的负担、补齐基层的缺口、守护更多普通人的健康，技术的价值才算落到了实处。

这，或许才是医疗大模型这个故事，最该有的方向。

← 上一篇：2026年人工智能训练师考证指南:报名条件、流程与补贴申领全攻略下一篇：Kaggle 前沿赛事：Open AI 智能体安全挑战 →