标签

国标新指向:AI耳机的终点是Agent

发布时间:2026-05-08 20:18来源:微信阅读:5

5月8日,工信部在北京组织了一场宣贯活动。会上正式发布了国家标准《人工智能终端智能化分级》,内容覆盖手机、PC、电视、眼镜、汽车座舱、音箱和耳机等场景,共分为9个部分。

这也是全球范围内首份对AI终端智能化等级作出系统性界定的国家标准。

我拿到了其中第9部分(耳机)的征求意见稿全文,并逐段通读。坦率说,当我看到L3辅助级的能力指标时,我一度停下来反复思考——

这并不是在描述一副耳机的功能边界。它更像是在界定一个Agent。

GB/Z 177.X-2026《人工智能 终端智能化分级》标准体系结构

◇ ◇ ◇

该标准由全国信息技术标准化技术委员会(SAC/TC28)归口,起草单位包括:

▶中国软件评测中心(工信部直属)

▶中国信息通信研究院

▶中国电子技术标准化研究院

▶小米通讯技术有限公司

▶安徽艾德未来智能科技有限公司

▶荣耀终端股份有限公司

▶广东欧加通信科技有限公司(OPPO )

先把框架拉出来:

重点看起草单位名单。小米、未来智能、荣耀、OPPO——国内做AI硬件的核心力量基本悉数到场。谁参与制定标准,谁就更可能在未来竞争规则上占据先机,而这份名单本身就折射出行业话语权的分布。

◇ ◇ ◇

耳机品类被划分为三个智能化等级。名字听起来很克制,但层级之间的差距并不小。

我用一句话把每个等级的本质讲清楚:

▶L1响应级:像会听指令的遥控器

▶L2工具级:能对话、能创作、能进行推理的工具

▶L3辅助级:能规划流程、能做出自主决策,还能“记住你”的Agent

智能耳机 L1 → L2 → L3 进化路径

◇ ◇ ◇

先把关键数字列出来。L1的核心指标:

▶语音唤醒准确率:安静环境≥95%,噪声环境≥90%

▶误唤醒:≤1次/24小时

▶语音识别准确率:安静≥90%,噪声≥80%

▶响应时间:≤400ms(识别)/ ≤1秒(指令理解)

▶触控准确率:≥90%

能做什么?它处理的是单条、直接的指令理解,并配合单步骤的工具调用。翻译成大白话:你说"播放音乐",它就播;你说"接听电话",它就接。

不能做什么?它难以理解连续指令,缺少推理能力,也不会形成可复用的上下文记忆,更谈不上生成内容。

换句话说,L1更像是语音遥控器。当前大多数具备语音唤醒能力的TWS耳机,大体都停留在这个水平。

◇ ◇ ◇

在L1之上,L2新增了几项关键能力:

感知能力增强:

▶佩戴状态感知(摘下暂停、戴上继续)

▶环境声音检测 + 定向拾音

▶主设备状态感知

认知能力跃迁:

▶支持3轮以上的连续指令理解

▶处理更复杂的指令内容

▶理解简单意图(不只读懂字面,还能判断你要干什么)

▶单步或较简单的链式推理

执行能力扩展:

▶多步骤工具调用(能完成组合任务,而不止做一个动作)

▶情感语音生成(MOS≥4分,接近自然人声)

▶文本生成(MOS≥4分)

▶多设备连接(≥2台,切换≤1秒)

▶主动噪声控制

记忆能力唤醒:

▶单会话上下文记忆(≥5轮对话)

这到了什么程度?你可以连续跟耳机聊到5轮以上,它能接着记住你前面说过的内容;你让它"把刚才的会议内容整理成摘要",它能完成;而它输出的语音带有情绪起伏,不是那种单调的“机器人腔”。

目前一些高端AI耳机(如讯飞iFLYBUDS、Olafriend等)依托大模型,基本覆盖了L2的边界。但要让它真正满足L2的所有要求——尤其是情感语音生成MOS≥4——市面上仍有不少产品达不到。

◇ ◇ ◇

当我继续读到L3的能力要求,才意识到这份标准真正想推动的方向。

L3在L2基础上新增的能力,虽然拆开写,但指向的是同一个目标——Agent。

感知:新增头部姿态感知(为空间交互打基础)

认知(这里是最关键的部分):

▶复杂意图理解:不止听懂你说了什么,更要理解你真正想要的结果

▶模糊意图理解:当表达不清时,它会追问,并给出选项帮助你澄清

▶感知融合理解:把用户信息、设备信息与环境信息综合起来做判断

▶复杂链式推理:进行多步骤的深入推演

▶任务分解与编排执行:把复杂任务拆成子任务,并安排执行顺序

执行:

▶工具自动选择和调用:不需要你告诉它用哪个能力模块,它自己判断并使用

▶自适应降噪:根据环境变化自动调整

▶跨设备内容迁移

记忆:

▶长期记忆:保留会话历史与用户偏好,并能持久存储后再调用

▶测试要求:间隔24小时后,仍能调用之前的对话信息和用户偏好

你注意到了吗?

"任务分解和编排执行" + "工具自动选择和调用" + "长期记忆" + "模糊意图澄清"——这不正是我们一直在讨论的AI Agent的关键能力吗?

L3能力 → Agent术语映射

◇ ◇ ◇

我把L3的能力要求换成AI Agent的常见表述后,可以更直观地理解:

从本质上看,国标并不是在讲“功能列表”,而是用技术标准的语言,给出了一个运行在耳机形态上的AI Agent定义。

这意味着什么?

AI耳机的终点不是"更聪明的语音助手",而是一个能够自主规划、自主执行,并持续吸收反馈的个人代理。

语音助手更偏被动——你问它答。Agent则更偏主动——它先理解你的目标,拆解任务、选择工具、完成执行,同时把关键结果记录下来。

这种差异,比L1到L2的变化要大得多。

◇ ◇ ◇

还有一个必须正视的事实:截至目前,市面上没有任何一款消费级耳机能把L3辅助级的所有要求完整覆盖。

原因在哪里?

L3要求的"任务分解和编排执行序列",意味着设备需要具备Planning能力,而在当前端侧AI芯片算力水平下,这类能力极难稳定落地。很多AI耳机依赖云端大模型,但Planning对实时性与上下文一致性要求很高,单纯依赖云端会遭遇延迟与断网等问题。

L3的"长期记忆"要求耳机具备跨会话的状态管理能力:隔24小时后仍能调用之前的偏好与历史内容。这不仅是实现方式的技术难题,还涉及隐私保护、存储机制与同步架构。

此外,L3提出的"工具自动选择"要求耳机具备Agent Runtime:能在任务过程中动态决定调用哪些能力模块。这需要的不只是语音识别与大模型推理的串联,更需要一整套Agent框架。

坦白讲,L3更像是2到3年后的目标,而不是当下就能成为产品卖点的参数。但这也是这份国标的价值:它不只是描述现状,更是在明确下一步的方向。

行业对标:当前产品智能化等级

L1:AirPods / FreeBuds Pro →L2:iFLYBUDS / Olafriend→L3:暂无

◇ ◇ ◇

回到起草单位本身:小米、未来智能、荣耀、OPPO这些企业。

未来智能在创立之初就深耕AI耳机,可以说是AI耳机赛道里最早也最强的力量之一,并且推动了“AI会议耳机”这一品类的成型。其余几家公司多属于手机体系,但在2025-2026年期间,也开始更集中地押注AI耳机赛道。

它们参与制定标准,往往意味着标准的能力指标很可能参考了这些企业当前的技术路线。可以理解为:L2更像它们今天能做到的能力,而L3更像它们接下来准备攻克的方向。

对中小AI硬件创业公司而言,这份标准同时是路线图也是门槛。你看到了方向,但也要清楚——大厂已经在提前设计游戏规则。

◇ ◇ ◇

第一,"AI耳机"这个品类正在被重新定义。

过去我们讲“智能耳机”,通常指向降噪能力与语音助手。但这份国标把标准抬到了Agent级别。由此可见,未来竞争不再只是"谁的降噪更强"或"谁的音质更好",而是"谁的AI能力更扎实、更能完成任务"。

硬件参数之间的比拼,正在让位给AI能力的竞争。

第二,端云协同架构将逐渐成为标配。

L3的能力要求(Planning + Tool Use + Memory)在纯端侧落地几乎不现实;而纯云端又容易带来延迟与隐私挑战。最终更可行的方案一定是端云协同:端侧负责感知与快速响应,云端承担更复杂的推理与规划。

这对芯片公司来说也是利好——端侧AI芯片的需求会继续增长。

第三,虽然标准本身是"指导性"的,但在市场上会自然变成门槛。

GB/Z这类标准未必属于强制要求,但在中国市场一旦形成“国标参照”,采购招标、产品宣传与渠道准入往往都会按这个口径来对齐。达到"L2工具级"就可能成为新的营销话术;达不到的产品则更容易在市场竞争中被淘汰。

竞争维度变迁

◇ ◇ ◇

如果你是AI硬件从业者,这份标准可以给出一张清晰的路线图:

短期(6-12个月):把产品拉到L2工具级

▶接入大模型,实现多轮对话与内容生成

▶情感语音生成质量达到MOS≥4

▶实现多设备连接并具备主动降噪能力

中期(1-2年):向L3辅助级进军

▶搭建Agent Runtime(任务规划 + 工具编排)

▶实现长期记忆架构(跨会话状态管理)

▶落地端云协同方案

长期(2-3年):探索L3之上的更高能力

▶多终端协同Agent(耳机 + 手机 + 眼镜联动)

▶主动健康监测与预警(结合生理传感器)

▶个性化持续学习

◇ ◇ ◇

这份国标的意义不在于它划了几个等级,而在于它用官方语言确认了一件事:

AI耳机的终点不是语音助手,而是Agent。

从L1到L3,改变的不是“更多功能”,而是“能力范式”。L1与L2之间更多是能力多少的差别——功能更丰富、对话轮次更多。而从L2走向L3,关键在于"范式转换":从被动响应升级为主动规划,从工具形态过渡到代理形态。

这种转换会在什么时候发生?老实说,我无法给出确定答案。但方向已经写进了国家标准。

对做AI硬件的人来说,这份标准值得认真对待:它不仅是一份技术文件,更是一张能指向未来3年竞争重点的路线图。

等到第一款真正达到L3辅助级的消费级耳机出现时,我们再用结果来验证这份判断。

AI硬玩社

聚焦AI硬件,分享见解和认知