OpenAI发布三款实时音频模型

发布时间：2026-05-08 07:24阅读：11

美东时间5月7日，OpenAI正式上线三款实时音频模型：GPT‑Realtime‑2、GPT‑Realtime‑Translate和GPT‑Realtime‑Whisper，主要面向语音互动、即时翻译与语音转录等场景。GPT‑Realtime‑2拥有接近GPT‑5级的推理能力，可应对较为复杂的指令，支持工具调用，并能在较长对话中保持语境连贯；Translate可覆盖70+种输入语言，实时翻译为其中13种输出语言，无需用户提供完整句子；Whisper提供低延迟的流式语音转文字能力，适用于会议字幕呈现与现场实时记录等需求。相关能力通过API对外开放，帮助开发者打造新一代语音智能体，让实时语音交互从基础问答逐步走向更深的推理型应用。实时音频能力进一步跃升，语音AI进入推理阶段，推动多场景商业化加速落地，同时带动人机交互生态的重构。相关A股产业链上市公司（不作个股买入推荐）科大讯飞（002230）：语音技术龙头，星火模型可适配多模态交互；歌尔股份（002241）：声学组件供应商，有望受益TWS语音交互升级；中科曙光（603019）：算力龙头，为模型训练与推理提供支撑；立讯精密（002475）：硬件代工企业，持续布局AI语音终端。

← 上一篇：第九届青少年人工智能创新挑战赛启动下一篇：2025-2028教育部AI白名单赛事全汇总（赛项解读） →