OpenAI 推出三款实时语音模型：翻译转写对话升级

发布时间：2026-05-08 10:14阅读：18

5 月 7 日，OpenAI 一次性发布了三款全新语音 AI 模型，并向开发者开放 API 接入。与以往的渐进式改进不同，这次升级覆盖了从推理能力到底层机制，并重点强化实时翻译与流式转写等能力。对终端用户而言，这意味着你开口与 AI 交流时，它不仅能"听懂"你的意思，还能在语音场景下"完成任务"，同时跨越语言差异——让语音真正成为人与软件之间更顺畅的沟通入口。

其中 GPT-Realtime-2 被视为本轮的关键产品，也是 OpenAI 首款具备 GPT-5 级别推理能力的实时语音模型。它不只是"先听你说再给出回答"，还可以在对话过程中调动工具、推进任务流程，从而更贴近你的真实意图。

GPT-Realtime-Translate 则聚焦语言障碍问题，支持 70 多种语言的输入，以及 13 种语言的输出。你用中文表达，对方接收到的是英语；对方讲西班牙语时，你能立刻听到流畅的中文。这样的"同声传译"效果，过去更多出现在专业翻译团队才能实现的场景。

GPT-Realtime-Whisper 主打低延迟转写。用户的话音还没结束，相关文字就已同步出现在屏幕上，使得字幕呈现与会议记录不再跟不上节奏。

如果把早期语音模型看作"快速问答机"，那么 GPT-Realtime-2 更像能边思考边行动的语音助手。它加入了预热话术：当用户提出需要较长处理的请求时，模型会先说一句"我来帮您查一下"，避免沉默等待造成的卡顿，让交互自然度明显提升。

同时它还支持并行工具调用。模型能够在同一时刻使用多个工具，例如一边口头回复"正在查您的日历"，一边同步获取航班信息，从而显著提高效率。上下文窗口也从 32K 扩展到 128K，更适合承载长对话与更复杂的任务链路。

开发者还能对模型的"思考强度"进行调节，最低到最高一共五档，用于在反应速度与推理深度之间取得更合适的平衡。至于表现，房产平台 Zillow 的 AI 团队在测试中发现：使用 GPT-Realtime-2 打造语音助手后，在最严苛的对抗性场景里，通话成功率从 69% 提升到 95%，整体增长达到 26 个百分点。

GPT-Realtime-Translate 的挑战集中在对真实口语的适配。现实交流往往不像课本那样标准：会有口音、停顿，以及不规则的用词方式。针对这些情况，模型做了专项优化。印度语音 AI 公司 BolnaAI 的测试结果显示，该模型在印地语、泰米尔语、泰卢固语上的词错率比其他模型低了 12.5%，任务完成率更高，同时延迟也更低。

视频平台 Vimeo 也在试用该能力用于产品教学视频的实时翻译，让来自不同地区的用户无需等待额外配音版本即可直接用母语理解内容。电信巨头德国电信则把它带入多语言客服场景：客户用自己最顺口的语言表达，AI 在中间进行实时传译。

通过这三款模型，可以看出 OpenAI 对语音 AI 的三类核心应用图景。

第一类是语音驱动的行动：用户提出需求，AI 理解后执行。比如告诉助手"帮我找符合预算、不临街的房子，周六能安排看房"，AI 不只停留在检索，还能进一步推理、筛选并完成预约，形成一套连贯的闭环流程。

第二类是系统主动播报：AI 会依据实时信息提醒用户关键节点。比如你在赶飞机途中，它可能提前告知："您的转机延误了，但还来得及，最快路线已规划好，行李也会自动转运。"

第三类是跨语言实时对话：双方使用不同语言，AI 在中间无缝传译，让沟通真正跨过语言边界。

语音是人类最自然的表达方式。如今，AI 正在让它变得更聪明、也更好用。或许不久之后，我们与软件互动的方式，会彻底告别那块小小的键盘。

← 上一篇：AI动态速递：国家大基金巨投DeepSeek，Anthropic巨额采购谷歌算力，马斯克整合xAI 下一篇：AI原生首届毕业生：OpenAI表彰高频用ChatGPT的26个团队 →