腾讯混元换了打法

发布时间：2026-04-27 11:18阅读：14

姚顺雨首秀为何与市场预期错位？

出品|虎嗅黄青春频道

作者|商业消费主笔黄青春

题图|视觉中国(20.290, -0.12, -0.59%)

姚顺雨接手腾讯混元后的首次亮相，最终还是被 DeepSeek-V4 的热议盖过去了。

4 月 23 日，腾讯正式发布并开源混元 Hy3 preview 语言模型——这也是姚顺雨推动混元技术体系全面重塑后，交出的第一份落地成果。

在此之前，市场对姚顺雨的期待早已被拉得很高：清华姚班出身、OpenAI 前核心研究员、AI 领域顶尖专家，入职后便拿到集团层面的双线汇报权限，一手推动腾讯混元大模型研发架构重搭，还打破了盘桓多年的部门壁垒，促使成立十年的 AI Lab 拆分重组。

正因如此，外界原本都在等腾讯端出一款足够颠覆的新模型，但 Hy3 preview 最终的市场声量和讨论热度并没有达到预期。很大程度上，是因为同期 GPT-5.5、小米 Mimo、Kimi K2.6 等新品密集发布，第二天 DeepSeek-V4 也强势登场。

这让混元本就有限的存在感，彻底淹没在这一轮大模型更新潮里，业内甚至有人调侃腾讯，“不如停掉混元，高价买下 DeepSeek”。

对此，腾讯内部人士向虎嗅表示，和外界期待姚顺雨“单骑救主”的英雄叙事不同，团队并没有给这一版本设定过高目标，因为 Hy3 preview 不是对 Hy2.0 的常规升级，而是腾讯混元技术底座的一次重新搭建。

“Hy3 预览版和 DeepSeek-V4 的关键区别在于，后者暂时不考虑商业化，重点放在冲破技术上限；而混元从一开始就是围绕腾讯业务生态来设计的，更强调与具体场景的深度绑定。如今 AI 行业已经进入下半场，模型能力、生态资源和工程化能力会形成协同效应——腾讯本来就不是一家只做模型的公司。”该人士表示。

腾讯终究还是“差了点火候”？

从预热官宣到正式发布，Hy3 preview 的实际表现，与市场被拉满的期待之间确实存在明显落差。

自从高调宣布姚顺雨加盟以来，腾讯对他的重视程度就非常罕见：他同时担任“CEO/总裁办公室”首席 AI 科学家，以及 AI Infra 部和大语言模型部负责人两项职务，并向腾讯总裁刘炽平和技术工程事业群总裁卢山双线汇报。

这种人事安排在腾讯历史上并不多见，相当于从集团层面直接确认了大模型的战略核心地位，也向市场释放出腾讯全力投入 AI 的信号。

3 月 18 日的财报电话会上，刘炽平进一步把市场预期推到了顶点：他明确透露，混元全新技术体系下的旗舰模型 Hy3.0 已在内部业务中测试，计划于 4 月对外发布，而且相比 Hy2.0 的能力提升会超过混元历次版本迭代。

再加上 2026 年二季度全球大模型赛道进入新一轮密集上新期：Anthropic 推出 Claude Opus 4.7，阿里发布 Qwen3.6-Max-Preview，Kimi 开源 K2.6，小米官宣 Mimo 全系列新模型，GPT-5.5 与 DeepSeek V4 也前后脚亮相——在这种强手云集的对抗里，市场自然希望腾讯端出一款足以改写国内大模型格局的旗舰产品。

但和被拉满的预期相比，Hy3 preview 虽然按时交付，却没有带来足够强的技术突破，各项表现都没有激起市场想象中的惊喜。

首先，腾讯高管此前承诺 4 月推出核心版本，结果到 4 月底只放出了 Hy3 预览版，虽然勉强踩线，但并没有体现出腾讯作为行业巨头应有的执行速度和爆发力度。

对此，腾讯内部人士向虎嗅解释，Hy3 预览版其实只是技术重建的起点，正式版以及更高阶版本仍在同步研发和测试中。“Hy3 已经基本完成了对原有架构的全面重构，这一版的主要任务是验证新路线、磨合重组后的团队，并跑通完整研发流程，而且整个交付周期不到三个月；而业内同类技术重构通常要 6 到 12 个月。”

其次，在行业动辄以 1T 参数刷屏的背景下，Hy3 preview 总参数 295B、激活参数 21B 的规格显得并不耀眼，也没有给市场带来足够强的冲击感，因此被一些业内人士吐槽不够顶级、不够震撼。

从实际测试和行业评测结果看，Hy3 preview 的综合能力虽然已经达到国内第一梯队，但在极限推理上仍弱于 GLM-5、Gemini 3.1 等顶级模型；代码和智能体能力也只是接近 GLM-4.7，也就是智谱 AI 四个月前的水平，既没有达到市场期待的代差式突破，也谈不上对标全球最顶尖模型。

不过如果抛开市场的高预期滤镜，回到模型本身的技术能力和落地表现来看，Hy3 preview 已经是腾讯混元历史上提升最大、实用性最强的一个版本。

在推理效率上，得益于模型架构与推理框架的深度配合，Hy3 preview 的整体推理效率提升了 40%，首 token 延迟下降 54%，端到端耗时减少 47%，成本也较上一代大幅回落——也就是说，决定用户体验和商业化可行性的关键指标都被明显优化了。

在复杂推理方面，Hy3 preview 在 FrontierScience-Olympiad 取得 70.0 分，在 IMO Answer Bench 达到 84.3 分，整体表现超过 GLM-5、Kimi-K2.5，已经接近 Gemini 3.1 Pro 和 GPT-5.4。

代码和智能体能力是 Hy3 preview 提升最明显的方向。在 SWE-Bench Verified 测试中，它拿到 74.4% 的通过率，逼近 GLM-5 和 Kimi-K2.5；在 Terminal-Bench 2.0 测试中，它获得 54.4% 的分数，超过 GLM-4.7 等模型，进入行业第一梯队；在覆盖 16 项基准的 Agent 综合评测里，平均分从 Hy2 的 35 分跃升到 56 分，接近 GLM-5 与 Kimi-K2.5 所处的旗舰区间。

这些能力提升的背后，是 Hy3 preview 从立项之初就确定了与产品深度协同设计的研发路线。

虎嗅获悉，Hy3 preview 发布时已经优先接入腾讯云、元宝、IMA、CodeBuddy、WorkBuddy、QQ 等十余条核心产品线，并且在每个落地方向都拿到了可以量化的业务结果。

在办公场景里，腾讯文档 AI PPT 接入后，生成成功率提升 20%，评测分数提高 10%，生成时间缩短 20%，在模板选择、内容生成、视觉匹配等环节中幻觉明显减少，匹配度显著增强；WorkBuddy 接入后，与国内同尺寸模型的用户盲测胜率达到 56%，能够稳定覆盖文档处理、数据分析、知识检索、工具链编排等复杂办公任务。

在社交和内容场景中，元宝 APP 已经和模型完成深度协同优化，进一步增强了意图理解、文本创作和深度搜索能力，能给用户带来更有“活人感”的交互体验；在公众号 AI 分身场景里，模型对用户意图、复杂上下文衔接和知识信息组织的能力也明显提升。

在游戏场景中，《和平精英》已经全面接入 AI NPC 玩法，在局外人设扮演场景下，模型能够准确理解角色设定，输出关联度高、增量明显的交互内容；在局内复杂对战场景中，回复节奏更接近真实玩家，表现出很强的稳定性和拟人化能力，累计体验用户已经超过 1.1 亿。

此外，QQ 浏览器、腾讯新闻、腾讯客服等数十款腾讯核心产品也都在陆续接入中，Hy3 preview 已经真正嵌入腾讯业务生态，而不是停留在实验室里的孤立模型。

务实路线真的和市场错位了吗？

“Hy3 preview 是混元大模型重建的第一步。”姚顺雨在 Hy3 preview 发布的官方推文中这样写道。

即便首秀没有打出和腾讯体量相匹配的声量，也并不意味着 Hy3 preview 是一款失败的模型。虎嗅认为，在某种程度上，姚顺雨为混元设定的核心方向，和当下行业的狂热叙事以及市场的期待重点，确实存在明显偏移。

腾讯混元团队向虎嗅表示，外界大多是站在围观角度，难以真正体会这次技术重建的难度——不仅要重新搭建基础设施，还要更换整套训练范式，几乎等于从零再造一个大模型。

“比如数据审核就是姚顺雨亲自盯的，在三个多月里，他主导完成了对过往复杂、冗余 SFT 数据的全面去重和精细化治理。现在模型效果已经取得阶段性进展，但仍有一些已知短板，比如工具调用时的错误恢复能力不足，以及对推理超参数比较敏感。我们希望借这次开源和发布，获取来自开源社区和用户的真实反馈，推动 Hy3 正式版进一步提升实用性。”上述人士说。

事实上，姚顺雨加入腾讯后，对混元团队推进的第一项关键改革，就是否定“唯榜单论”的研发思路。他在内部会议上指出，过去混元模型过度追逐榜单分数，甚至把专门用于打榜的语料直接混入训练集，导致数据污染严重，反而影响了模型在真实场景中的表现。因此，他给团队划出了很明确的路线：不迷信榜单，也不要围着榜单做研发。

虎嗅独家获悉，今年 2 月，姚顺雨主导重建了预训练和强化学习基础设施，并确立了模型研发追求实用性的三条核心原则：

能力体系化：不鼓励偏科。即使是代码智能体这类单一场景，也涉及推理、长文、指令、对话、代码、工具等多种能力的协同。

评测真实性：主动跳出容易被刷分的公开榜单，采用自建题目、最新考试、人工评测、产品众测等方式，检验并提升模型的真实战斗力。

性价比导向：实用性离不开商业可行性。通过模型架构与推理框架的深度协同设计，大幅降低任务成本，让智能能力用得起，也用得好。

与此同时，混元团队也在持续扩大预训练和强化学习规模，抬高模型智能上限，并通过和腾讯更多产品场景做深度协同设计，继续探索基于场景的特色能力。

基于这一思路，Hy3 preview 已经跳出了行业通用的公开评测体系。腾讯混元团队自建了 50 多个基准测试集，并通过自建题目、最新考试、人工评测、产品众测等多种方式，综合衡量模型的真实战斗力。

据虎嗅了解，腾讯还专门搭建了 CL-bench、CL-bench-Life、Hy-Backend、Hy-SWE Max 等一系列贴近真实业务的评测体系，核心目标只有一个：检验模型在真实场景里的可用性，而不是实验室里的纸面分数。

要知道，在今天的大模型赛道里，公开榜单分数是最直观、最容易传播的能力证明，也是模型能否出圈、获得市场认可的重要凭据——如果不打榜，或者拿不出足够压制同行的榜单成绩，市场往往就会默认你没有对应实力，普通用户也很难感知到你的技术进步。

再看 Hy3 preview 备受争议的 295B 参数规模，这其实正是姚顺雨“实用优先、放弃炸场”路线的体现。在行业普遍靠堆参数、扩规模来提升能力的当下，姚顺雨选择了相反路径：Hy3 preview 的总参数甚至比上一代更小，核心资源并没有投向参数扩张，而是转向数据质量提升，几乎完成了对 Hy2 底座的重构。

这种逆着行业常规推进的路线，来自腾讯混元对技术实用性的判断：

能力边界：复杂推理、长上下文理解、指令遵循等关键实用能力，在 300B 参数量级上已经能够较充分释放，继续盲目扩大参数，带来的边际收益已经明显下降。

成本控制：300B 级混合专家模型经过量化后可以实现单机部署，而 1T 级模型必须跨节点运行，多机通信会显著抬高延迟、吞吐和运维复杂度，推理成本也会成倍增加。

落地可行性：大多数商业场景都能借助检索增强生成（RAG）、智能体（Agent）等工程方法弥补与顶级模型之间的差距；而 300B 级模型在推理成本和微调门槛上的优势，也让私有化部署和行业定制成为可能。

沿着这套判断，Hy3 preview 的目标之一就是把价格打下来：腾讯云公开 API 定价在 0-16K 上下文范围内，输入最低 1.2 元 / 百万 tokens，命中缓存后最低 0.4 元 / 百万 tokens，输出最低 4 元 / 百万 tokens；同时推出的个人版套餐最低 28 元 / 月，在同级别旗舰开源 MoE 模型赛道里处于最低价梯队。

但市场真正期待的，是腾讯向上突破，拿出一款“碾压同行、对标 GPT”的顶级旗舰，希望看到的是巨头在参数、跑分和行业影响力上的炸场表现，而不是精打细算的性价比方案和更偏落地的工程化产品。

这种市场预期与腾讯真实战略选择之间的偏差，正是这次舆论落差的主要来源。

当然，腾讯在 AI 赛道里最大的底牌，仍然是无可替代的生态能力和工程化能力，这也是市场始终对腾讯混元抱有逆袭想象的根本原因。

在生态层面，腾讯可以说“两侧起风”：手握微信 14.18 亿月活这一国民级流量入口，还有 QQ、游戏、办公、内容、金融等全场景产品矩阵，是国内拥有最多真实应用场景的互联网巨头——而真实场景里的用户反馈和海量业务数据，正是模型迭代最关键的“燃料”。

在商业化层面，AI 也在持续拉动腾讯业务：

2025 年腾讯广告收入同比增长 19% 至 1449.73 亿元，核心驱动力就是 AI 重新塑造了广告业务的底层逻辑；

游戏业务收入同比增长 22% 达到 2416 亿元，超过 40 款腾讯游戏落地 AI 应用，覆盖研发、玩法、运营全链路，人效和收入都明显提升；

腾讯云也首次实现规模化盈利，大模型相关产品收入在近两年里增长了 50 倍。

从最终结果看，姚顺雨只用了三个月就完成技术重建，并推动全业务场景快速落地，让此前掉队的腾讯混元重新回到国内大模型第一梯队。他为腾讯混元设定的“不偏科、不刷榜、重性价比、深度贴合业务场景”的研发路线，也正符合 AI 行业从参数狂欢回归落地实用的长期趋势。

正如姚顺雨年初对虎嗅所说，大模型上半场的核心竞争在训练和参数突破，下半场的重心则会转向任务定义、系统构建和真实问题的解决能力——从这个角度看，腾讯的生态优势、工程化能力和商业化体系，在 AI 下半场拥有很大的想象空间。

← 上一篇：迅策科技ARR激增300%，估值业绩双升可期下一篇：再通胀还是类滞胀？ →