OpenAI推出三款革新语音模型，AI沟通能力迈上新台阶

发布时间：2026-05-08 14:50阅读：10

在昨日的凌晨时分，OpenAI公布了三款全新的音频处理模型：GPT-Realtime-2、GPT-Realtime-Translate以及GPT-Realtime-Whisper。

根据OpenAI官方的介绍，这些新模型将赋能开发者，使其能够创造出在用户进行语音交流时，能够实时进行“推理、语言转换和文字转录”的语音应用。目前，这三款模型已向开发者群体开放了测试申请。

此次更新的核心亮点在于三款模型针对不同应用场景的明确分工。

GPT-Realtime-2专为实时语音代理（Agent）场景设计，堪称OpenAI首个具备“GPT-5级别推理能力”的语音模型。它能够应对复杂的指令，有效调用外部工具，处理对话中的意外中断，并在长时间的语音交流中保持连贯的上下文理解。

GPT-Realtime-Translate则专注于实时语音翻译任务，支持将70多种来源语言翻译成13种目标语言。

GPT-Realtime-Whisper面向实时语音转录需求，它能在用户说话的同时生成文本内容，非常适用于生成字幕、会议记录以及工作流程的更新。

同步公布的还有各项服务的定价。GPT-Realtime-2的模型计费方式为按token计算，其中音频输入的价格为每百万token 32美元，音频输出为每百万token 64美元；GPT-Realtime-Translate按分钟计费，每分钟价格为0.034美元；GPT-Realtime-Whisper同样采用按分钟计费，每分钟价格为0.017美元。

据相关报道，包括Zillow、Priceline以及德国电信在内的多家知名企业用户，已开始对这些模型进行实际测试。

此次发布标志着OpenAI在过去一年中语音技术发展战略的一次重要延伸。

#AI#大模型

← 上一篇：AI赋能经典：《我的祖国》新演绎引发热议下一篇：豫智数能斩获五项AI视觉软件著作权 →