设备端语音AI:语音交互正在取代传统键盘
过去多年间,业界在各类应用场景中持续尝试推广语音AI技术,但效果一直不太稳定。当前,多个关键因素共同发力,使得语音AI开始走向普及,语音驱动的人机交互界面正迎来快速发展的"黄金期"。
这些推动因素主要包括:语言模型的重大突破、低功耗的设备端AI处理芯片、语音输入方式的广泛采用、情境感知智能的快速成长,以及完善的生态系统和开发者资源支持。这些要素相互配合,将充分释放语音输入的巨大潜力,使其真正成为主流的输入方式。
回顾过去数十年,计算机和终端设备的人机交互经历了从文本终端,到图形界面、鼠标操作、手写笔、多点触摸,再到效果有限的手势控制等多种形态的演进。每一次重大交互模式的变革,都体现了技术的重大进步,也反映了人们对人机交互吸引力与成功要素认识的深化。
亚马逊推出设备唤醒词"Alexa"后,语音输入逐渐进入大众视野。随后其他厂商也开始采用特定唤醒词激活设备,但仅能处理有限的词汇量以实现本地语音处理。由于识别精度不高且设备计算能力受限,语音输入长期以来仅停留在"唤醒词"阶段,难以真正普及为主流用户交互方式。
当前,模型训练和实际部署的重大突破表明,基于本地的语音交互终于迎来了普及的最佳时机。大语言模型(LLM)、近两年快速发展的小型语言模型(SLM),以及智能体AI(Agentic AI)的快速演进,共同推动着用户交互方式的这一最新变革。
图1:语音输入即将充分发挥其潜力,成为新的键盘。