姚顺雨解析 AI 新阶段:摒弃刷榜心态,回归真实问题
入职腾讯半年之际,腾讯首席 AI 科学家姚顺雨首度公开亮相。
身为 ReAct 框架的提出者,并曾参与 OpenAI Operator 及 Deep Research 项目的他,向来鲜少接受媒体采访,更不轻易对外发表行业见解。
6 月 5 日,在腾讯云 AI 产业应用大会上,他与腾讯集团高级执行副总裁汤道生进行了一场近一小时的深度对谈。相较于新品发布,此次交流更像是一份关于 AI 下半场的战略思考录。
围绕 Agent 为何成为必选项、大模型竞争的真实壁垒,以及腾讯是否落后的争议,姚顺雨提出了三大核心观点。
01
AI 下半场的内核:
由“探寻方法”转向“发掘问题”
过往数十年,人工智能演进的主线在于“寻找方法”。研究者会为下围棋专门研发 AlphaGo,为翻译任务构建专用模型。这些方案往往各自为政,难以跨越场景界限。然而,随着预训练(Pre-training)与后训练(Post-training)技术的日益成熟,全行业迎来了一套极简且通用的方法论。
腾讯首席 AI 科学家姚顺雨
“此刻我们仿佛手握一把万能锤,能敲击任何钉子。方法论已极度成熟,反倒是发掘真正有价值的问题,变得愈发艰难。”姚顺雨如此表述。
这正是 AI 下半场的开端:当技术的通用能力化为基础设施,竞争壁垒便从“谁能造出锤子”转变为“谁拥有定义问题的权力”。
姚顺雨之所以选择加盟腾讯,正是基于对这一行业规律的深刻洞察。他指出,在方法论触及天花板的阶段,决定 AI 最终价值产出的要素有三:
首要是产品出口,即技术究竟在何处落地、如何为社会与人创造实质价值;
其次是环境,若缺乏足够丰富的数字化工具与外部连接,智能体(Agent)便无法执行复杂的长链路任务;
最后是上下文(Context),无论对企业还是个人,模型虽愈发擅长将复杂输入转化为输出,但此时最原始的输入——洞察用户行为、掌握企业核心数据资产,已成为最关键的护城河。
他将腾讯 AI 的发展划分为三个板块:Foundation(基础模型)、Product(产品)以及 Frontier(前沿探索)。前者致力于优化预训练与后训练,中间层负责创造真实价值,顶层则专注探索新研究范式与未来机遇。一个健康的 AI 组织应构成均衡的三角形,而非孤注一掷于单一方向。
02
“国内模型热衷刷榜”,
真实场景才是关键评测场
若说关于“下半场”的探讨多为方向性研判,那么在模型研发议题上,姚顺雨则给出了更为具体的见解。
在论及模型与产品协同设计(Co-Design)时,他指出了一个现象:当前行业对 Benchmark 榜单的过度重视。
“我认为国内(大模型领域)可能存在一种不良倾向,即过分迷恋刷榜。”
他同时指出,榜单并非全无价值,问题在于许多 Benchmark 正快速饱和,愈发难以映射真实用户需求。相较榜单得分,他更看重真实产品中的反馈。
一方面,真实世界能暴露诸多榜单无法察觉的问题。例如 Hy3-Preview 版本的核心目标之一,便是获取真实反馈,识别底线问题并持续修复。
另一方面,真实用户的 Prompt 分布与 Benchmark 截然不同。榜单题目通常描述清晰、边界明确,且多为单轮问答。但现实中用户提问往往模糊,仅凭只言片语,且会连续追问。这些差异终将影响模型的训练与优化方向。
姚顺雨认为,产品与模型间正形成日益紧密的反馈闭环。例如元宝带来的聊天与搜索能力,不仅提升了自身体验,也能迁移至其他产品。不同产品产生的数据将形成网络效应,持续强化模型能力。
姚顺雨还在对谈中首次披露混元 3 模型训练背后的“机密”。他表示:现阶段大模型开发是一个极度讲究工程扎实度(Trivial Work)的过程——即重建预训练与强化学习的计算基础设施(Infra),持续丰富数据分类学(Data Taxonomy),全力以赴提升数据质量并定义真实问题的标准。在这些决策背后,并无现成公式可循,极度考验团队在繁杂的权衡(Trade-off)中所展现的技术品味(Taste)。
03
Agent 成核心赛道,需将简单任务做稳
作为 ReAct 框架的提出者及 Agent 研究的重要推手,姚顺雨认为 Agent 已成为模型厂商必须布局的方向,尤其是 Coding Agent。因为当模型能够调用工具、操控文件系统并运行容器时,本质上已具备构建完整系统的能力。
不过,对于下一代 Agent 的发展,他强调的重点并非“更复杂”,未来竞争的关键之一,在于将大量简单任务稳定地做对。
姚顺雨强调,在 2026 年的当下,将相对简单的任务一次性做对、做到足够鲁棒,才是企业缓解 Token 焦虑、提升 ROI 最关键的突破口。模型不应在明知行不通的错误路径上盲目试错。
在成本维度上,得益于国内在基础设施与工程优化上的长期积淀,中国团队确实保持着全球领先的成本优势。但姚顺雨认为,下一步成本优化的战略核心,绝非盲目追求那些极长尾、华而不实的复杂任务上那一两个百分点的微弱提升,而是如何运用相对更小的模型,将那些真正高价值、高频的产业任务稳妥、高效地完成。这需要依赖模型架构的持续创新、更加长效的长文本管理能力,以及一整套坚固的基础设施 Harness 来提供运行保障。
04
产品范式的剧变:
从预制功能到小团队试错
作为在非 AI 时代打造过 QQ 空间、QQ 秀、腾讯音乐、腾讯文档等国民级产品的“老将”,汤道生也从产品经理的第一性原理出发,剖析了技术范式转移对产品形态和组织架构带来的颠覆。
腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生
汤道生认为,无论时代如何变迁,做产品不变的底层逻辑始终是:聚焦用户需求,解决核心痛点,为客户创造可买单的价值。而变化的,是交互逻辑与研发流程。
在非 AI 时代,产品经理通过“功能”来定义产品。研发路径遵循清晰的功能描述与规格说明书(Specification),通过预制好的界面、菜单和按钮,引导用户在一个相对封闭、确定性的系统中操作。这是一种瀑布式的、结果高度可预测的研发形态。
然而在 AI 时代,产品走向了开放式的服务形态。自然语言和语音成为主交互界面,这意味着产品方永远无法预知用户下一秒会输入什么。产品经理的核心工作,转变为如何充分调用模型的推理和工具调用能力,为模型提供足够的系统技能、必要的沙箱环境以及精准的上下文。
这种流程的变革,迫使企业内部组织架构发生根本性重组。
05
布局 AI,腾讯是否慢了?
对话尾声,一个外界最为关切的问题被摆上台面:腾讯在 AI 领域是否落后了?
姚顺雨的回应展现了他作为科学家的冷静与宏观视野。他认为,得出“快”与“慢”的结论,取决于身处其中的人对两个底层问题的基本判断:
第一个判断:AI 是一场短期投机游戏,还是一场长期的工业革命?如今硅谷弥漫着某种焦虑情绪,仿佛两年后所有人都将失业,世界将被单一主宰吞噬。但腾讯的判断很明确——这是一场刚刚开始、长达数十年的长跑。今日大模型所处的阶段,酷似 20 世纪 70 年代个人电脑初诞的工业前夜,仍有海量基础设施与上层建筑等待重构,不可能有某一个超级应用直接终结整个生态。
而第二个判断:AI 的发展是线性的单一复制,还是多元的生态演进?过去几年,全行业似乎在抄写同一套标准答案:从 Pre-training、Post-training RL,一路内卷到 Coding Agent,所有人都在做高度同质化的事情。但长远来看,未来的智能化叙事必然是多元的。除了 Coding Agent 带来的软件生产力革命,具身智能、多模态交互等万亿级的产业空白尚未被填满。
“在一条刚刚开启的、多元化的长跑赛道上,只要你能诚实面对自己,能看到真实反馈并迅速调整,保持足够的耐心,那么过去的些许曲折都只是长跑中的步伐微调。从这个角度看,腾讯并不慢。”姚顺雨说道。
汤道生也表示,腾讯是一家拥有大量产品和业务形态的公司,不同团队推进速度本就各异。有些项目会成功,有些项目会失败,也有些项目会经历反复探索。但腾讯最大的优势,依然来自长期积累的场景和生态。
最后,汤道生将腾讯 AI 能力总结为三大核心能力:场景连接能力、工程驾驭能力以及模型驱动力。前者负责连接用户、数据与业务流程;中间层负责保障 Agent 稳定运行;后者则通过混元大模型与产品协同设计,实现实用性、性价比与 ROI 之间的平衡。
大模型的喧嚣过后,AI 的下半场正不可逆转地走向务实与深水区。正如这场对话所展现的,当行业仍在追逐排行榜和参数规模时,腾讯正试图将更多精力投入真实场景、产品反馈以及 Agent 体系建设上。
在这场关于常识与韧性的长跑中,那些诚实面对问题、扎根真实场景的企业,正以一种克制而连续的步频,走向属于他们的终点。