腾讯混元换了打法
姚顺雨首秀为何与市场预期错位?
出品|虎嗅黄青春频道
作者|商业消费主笔 黄青春
题图|视觉中国(20.290, -0.12, -0.59%)
姚顺雨接手腾讯混元后的首次亮相,最终还是被 DeepSeek-V4 的热议盖过去了。
4 月 23 日,腾讯正式发布并开源混元 Hy3 preview 语言模型——这也是姚顺雨推动混元技术体系全面重塑后,交出的第一份落地成果。
在此之前,市场对姚顺雨的期待早已被拉得很高:清华姚班出身、OpenAI 前核心研究员、AI 领域顶尖专家,入职后便拿到集团层面的双线汇报权限,一手推动腾讯混元大模型研发架构重搭,还打破了盘桓多年的部门壁垒,促使成立十年的 AI Lab 拆分重组。
正因如此,外界原本都在等腾讯端出一款足够颠覆的新模型,但 Hy3 preview 最终的市场声量和讨论热度并没有达到预期。很大程度上,是因为同期 GPT-5.5、小米 Mimo、Kimi K2.6 等新品密集发布,第二天 DeepSeek-V4 也强势登场。
这让混元本就有限的存在感,彻底淹没在这一轮大模型更新潮里,业内甚至有人调侃腾讯,“不如停掉混元,高价买下 DeepSeek”。
对此,腾讯内部人士向虎嗅表示,和外界期待姚顺雨“单骑救主”的英雄叙事不同,团队并没有给这一版本设定过高目标,因为 Hy3 preview 不是对 Hy2.0 的常规升级,而是腾讯混元技术底座的一次重新搭建。
“Hy3 预览版和 DeepSeek-V4 的关键区别在于,后者暂时不考虑商业化,重点放在冲破技术上限;而混元从一开始就是围绕腾讯业务生态来设计的,更强调与具体场景的深度绑定。如今 AI 行业已经进入下半场,模型能力、生态资源和工程化能力会形成协同效应——腾讯本来就不是一家只做模型的公司。”该人士表示。
腾讯终究还是“差了点火候”?
从预热官宣到正式发布,Hy3 preview 的实际表现,与市场被拉满的期待之间确实存在明显落差。
自从高调宣布姚顺雨加盟以来,腾讯对他的重视程度就非常罕见:他同时担任“CEO/总裁办公室”首席 AI 科学家,以及 AI Infra 部和大语言模型部负责人两项职务,并向腾讯总裁刘炽平和技术工程事业群总裁卢山双线汇报。
这种人事安排在腾讯历史上并不多见,相当于从集团层面直接确认了大模型的战略核心地位,也向市场释放出腾讯全力投入 AI 的信号。
3 月 18 日的财报电话会上,刘炽平进一步把市场预期推到了顶点:他明确透露,混元全新技术体系下的旗舰模型 Hy3.0 已在内部业务中测试,计划于 4 月对外发布,而且相比 Hy2.0 的能力提升会超过混元历次版本迭代。
再加上 2026 年二季度全球大模型赛道进入新一轮密集上新期:Anthropic 推出 Claude Opus 4.7,阿里发布 Qwen3.6-Max-Preview,Kimi 开源 K2.6,小米官宣 Mimo 全系列新模型,GPT-5.5 与 DeepSeek V4 也前后脚亮相——在这种强手云集的对抗里,市场自然希望腾讯端出一款足以改写国内大模型格局的旗舰产品。
但和被拉满的预期相比,Hy3 preview 虽然按时交付,却没有带来足够强的技术突破,各项表现都没有激起市场想象中的惊喜。
首先,腾讯高管此前承诺 4 月推出核心版本,结果到 4 月底只放出了 Hy3 预览版,虽然勉强踩线,但并没有体现出腾讯作为行业巨头应有的执行速度和爆发力度。
对此,腾讯内部人士向虎嗅解释,Hy3 预览版其实只是技术重建的起点,正式版以及更高阶版本仍在同步研发和测试中。“Hy3 已经基本完成了对原有架构的全面重构,这一版的主要任务是验证新路线、磨合重组后的团队,并跑通完整研发流程,而且整个交付周期不到三个月;而业内同类技术重构通常要 6 到 12 个月。”
其次,在行业动辄以 1T 参数刷屏的背景下,Hy3 preview 总参数 295B、激活参数 21B 的规格显得并不耀眼,也没有给市场带来足够强的冲击感,因此被一些业内人士吐槽不够顶级、不够震撼。
从实际测试和行业评测结果看,Hy3 preview 的综合能力虽然已经达到国内第一梯队,但在极限推理上仍弱于 GLM-5、Gemini 3.1 等顶级模型;代码和智能体能力也只是接近 GLM-4.7,也就是智谱 AI 四个月前的水平,既没有达到市场期待的代差式突破,也谈不上对标全球最顶尖模型。
不过如果抛开市场的高预期滤镜,回到模型本身的技术能力和落地表现来看,Hy3 preview 已经是腾讯混元历史上提升最大、实用性最强的一个版本。
在推理效率上,得益于模型架构与推理框架的深度配合,Hy3 preview 的整体推理效率提升了 40%,首 token 延迟下降 54%,端到端耗时减少 47%,成本也较上一代大幅回落——也就是说,决定用户体验和商业化可行性的关键指标都被明显优化了。
在复杂推理方面,Hy3 preview 在 FrontierScience-Olympiad 取得 70.0 分,在 IMO Answer Bench 达到 84.3 分,整体表现超过 GLM-5、Kimi-K2.5,已经接近 Gemini 3.1 Pro 和 GPT-5.4。
代码和智能体能力是 Hy3 preview 提升最明显的方向。在 SWE-Bench Verified 测试中,它拿到 74.4% 的通过率,逼近 GLM-5 和 Kimi-K2.5;在 Terminal-Bench 2.0 测试中,它获得 54.4% 的分数,超过 GLM-4.7 等模型,进入行业第一梯队;在覆盖 16 项基准的 Agent 综合评测里,平均分从 Hy2 的 35 分跃升到 56 分,接近 GLM-5 与 Kimi-K2.5 所处的旗舰区间。
这些能力提升的背后,是 Hy3 preview 从立项之初就确定了与产品深度协同设计的研发路线。
虎嗅获悉,Hy3 preview 发布时已经优先接入腾讯云、元宝、IMA、CodeBuddy、WorkBuddy、QQ 等十余条核心产品线,并且在每个落地方向都拿到了可以量化的业务结果。
在办公场景里,腾讯文档 AI PPT 接入后,生成成功率提升 20%,评测分数提高 10%,生成时间缩短 20%,在模板选择、内容生成、视觉匹配等环节中幻觉明显减少,匹配度显著增强;WorkBuddy 接入后,与国内同尺寸模型的用户盲测胜率达到 56%,能够稳定覆盖文档处理、数据分析、知识检索、工具链编排等复杂办公任务。
在社交和内容场景中,元宝 APP 已经和模型完成深度协同优化,进一步增强了意图理解、文本创作和深度搜索能力,能给用户带来更有“活人感”的交互体验;在公众号 AI 分身场景里,模型对用户意图、复杂上下文衔接和知识信息组织的能力也明显提升。
在游戏场景中,《和平精英》已经全面接入 AI NPC 玩法,在局外人设扮演场景下,模型能够准确理解角色设定,输出关联度高、增量明显的交互内容;在局内复杂对战场景中,回复节奏更接近真实玩家,表现出很强的稳定性和拟人化能力,累计体验用户已经超过 1.1 亿。
此外,QQ 浏览器、腾讯新闻、腾讯客服等数十款腾讯核心产品也都在陆续接入中,Hy3 preview 已经真正嵌入腾讯业务生态,而不是停留在实验室里的孤立模型。
务实路线真的和市场错位了吗?
“Hy3 preview 是混元大模型重建的第一步。”姚顺雨在 Hy3 preview 发布的官方推文中这样写道。
即便首秀没有打出和腾讯体量相匹配的声量,也并不意味着 Hy3 preview 是一款失败的模型。虎嗅认为,在某种程度上,姚顺雨为混元设定的核心方向,和当下行业的狂热叙事以及市场的期待重点,确实存在明显偏移。
腾讯混元团队向虎嗅表示,外界大多是站在围观角度,难以真正体会这次技术重建的难度——不仅要重新搭建基础设施,还要更换整套训练范式,几乎等于从零再造一个大模型。
“比如数据审核就是姚顺雨亲自盯的,在三个多月里,他主导完成了对过往复杂、冗余 SFT 数据的全面去重和精细化治理。现在模型效果已经取得阶段性进展,但仍有一些已知短板,比如工具调用时的错误恢复能力不足,以及对推理超参数比较敏感。我们希望借这次开源和发布,获取来自开源社区和用户的真实反馈,推动 Hy3 正式版进一步提升实用性。”上述人士说。
事实上,姚顺雨加入腾讯后,对混元团队推进的第一项关键改革,就是否定“唯榜单论”的研发思路。他在内部会议上指出,过去混元模型过度追逐榜单分数,甚至把专门用于打榜的语料直接混入训练集,导致数据污染严重,反而影响了模型在真实场景中的表现。因此,他给团队划出了很明确的路线:不迷信榜单,也不要围着榜单做研发。
虎嗅独家获悉,今年 2 月,姚顺雨主导重建了预训练和强化学习基础设施,并确立了模型研发追求实用性的三条核心原则:
能力体系化:不鼓励偏科。即使是代码智能体这类单一场景,也涉及推理、长文、指令、对话、代码、工具等多种能力的协同。
评测真实性:主动跳出容易被刷分的公开榜单,采用自建题目、最新考试、人工评测、产品众测等方式,检验并提升模型的真实战斗力。
性价比导向:实用性离不开商业可行性。通过模型架构与推理框架的深度协同设计,大幅降低任务成本,让智能能力用得起,也用得好。
与此同时,混元团队也在持续扩大预训练和强化学习规模,抬高模型智能上限,并通过和腾讯更多产品场景做深度协同设计,继续探索基于场景的特色能力。
基于这一思路,Hy3 preview 已经跳出了行业通用的公开评测体系。腾讯混元团队自建了 50 多个基准测试集,并通过自建题目、最新考试、人工评测、产品众测等多种方式,综合衡量模型的真实战斗力。
据虎嗅了解,腾讯还专门搭建了 CL-bench、CL-bench-Life、Hy-Backend、Hy-SWE Max 等一系列贴近真实业务的评测体系,核心目标只有一个:检验模型在真实场景里的可用性,而不是实验室里的纸面分数。
要知道,在今天的大模型赛道里,公开榜单分数是最直观、最容易传播的能力证明,也是模型能否出圈、获得市场认可的重要凭据——如果不打榜,或者拿不出足够压制同行的榜单成绩,市场往往就会默认你没有对应实力,普通用户也很难感知到你的技术进步。
再看 Hy3 preview 备受争议的 295B 参数规模,这其实正是姚顺雨“实用优先、放弃炸场”路线的体现。在行业普遍靠堆参数、扩规模来提升能力的当下,姚顺雨选择了相反路径:Hy3 preview 的总参数甚至比上一代更小,核心资源并没有投向参数扩张,而是转向数据质量提升,几乎完成了对 Hy2 底座的重构。
这种逆着行业常规推进的路线,来自腾讯混元对技术实用性的判断:
能力边界:复杂推理、长上下文理解、指令遵循等关键实用能力,在 300B 参数量级上已经能够较充分释放,继续盲目扩大参数,带来的边际收益已经明显下降。
成本控制:300B 级混合专家模型经过量化后可以实现单机部署,而 1T 级模型必须跨节点运行,多机通信会显著抬高延迟、吞吐和运维复杂度,推理成本也会成倍增加。
落地可行性:大多数商业场景都能借助检索增强生成(RAG)、智能体(Agent)等工程方法弥补与顶级模型之间的差距;而 300B 级模型在推理成本和微调门槛上的优势,也让私有化部署和行业定制成为可能。
沿着这套判断,Hy3 preview 的目标之一就是把价格打下来:腾讯云公开 API 定价在 0-16K 上下文范围内,输入最低 1.2 元 / 百万 tokens,命中缓存后最低 0.4 元 / 百万 tokens,输出最低 4 元 / 百万 tokens;同时推出的个人版套餐最低 28 元 / 月,在同级别旗舰开源 MoE 模型赛道里处于最低价梯队。
但市场真正期待的,是腾讯向上突破,拿出一款“碾压同行、对标 GPT”的顶级旗舰,希望看到的是巨头在参数、跑分和行业影响力上的炸场表现,而不是精打细算的性价比方案和更偏落地的工程化产品。
这种市场预期与腾讯真实战略选择之间的偏差,正是这次舆论落差的主要来源。
当然,腾讯在 AI 赛道里最大的底牌,仍然是无可替代的生态能力和工程化能力,这也是市场始终对腾讯混元抱有逆袭想象的根本原因。
在生态层面,腾讯可以说“两侧起风”:手握微信 14.18 亿月活这一国民级流量入口,还有 QQ、游戏、办公、内容、金融等全场景产品矩阵,是国内拥有最多真实应用场景的互联网巨头——而真实场景里的用户反馈和海量业务数据,正是模型迭代最关键的“燃料”。
在商业化层面,AI 也在持续拉动腾讯业务:
2025 年腾讯广告收入同比增长 19% 至 1449.73 亿元,核心驱动力就是 AI 重新塑造了广告业务的底层逻辑;
游戏业务收入同比增长 22% 达到 2416 亿元,超过 40 款腾讯游戏落地 AI 应用,覆盖研发、玩法、运营全链路,人效和收入都明显提升;
腾讯云也首次实现规模化盈利,大模型相关产品收入在近两年里增长了 50 倍。
从最终结果看,姚顺雨只用了三个月就完成技术重建,并推动全业务场景快速落地,让此前掉队的腾讯混元重新回到国内大模型第一梯队。他为腾讯混元设定的“不偏科、不刷榜、重性价比、深度贴合业务场景”的研发路线,也正符合 AI 行业从参数狂欢回归落地实用的长期趋势。
正如姚顺雨年初对虎嗅所说,大模型上半场的核心竞争在训练和参数突破,下半场的重心则会转向任务定义、系统构建和真实问题的解决能力——从这个角度看,腾讯的生态优势、工程化能力和商业化体系,在 AI 下半场拥有很大的想象空间。