标签

OpenAI发布三款实时音频模型

发布时间:2026-05-08 07:24来源:微信阅读:3

美东时间5月7日,OpenAI正式上线三款实时音频模型:GPT‑Realtime‑2、GPT‑Realtime‑Translate和GPT‑Realtime‑Whisper,主要面向语音互动、即时翻译与语音转录等场景。GPT‑Realtime‑2拥有接近GPT‑5级的推理能力,可应对较为复杂的指令,支持工具调用,并能在较长对话中保持语境连贯;Translate可覆盖70+种输入语言,实时翻译为其中13种输出语言,无需用户提供完整句子;Whisper提供低延迟的流式语音转文字能力,适用于会议字幕呈现与现场实时记录等需求。相关能力通过API对外开放,帮助开发者打造新一代语音智能体,让实时语音交互从基础问答逐步走向更深的推理型应用。 实时音频能力进一步跃升,语音AI进入推理阶段,推动多场景商业化加速落地,同时带动人机交互生态的重构。 相关A股产业链上市公司(不作个股买入推荐) 科大讯飞(002230):语音技术龙头,星火模型可适配多模态交互;歌尔股份(002241):声学组件供应商,有望受益TWS语音交互升级;中科曙光(603019):算力龙头,为模型训练与推理提供支撑;立讯精密(002475):硬件代工企业,持续布局AI语音终端。