OpenAI推出三款革新语音模型,AI沟通能力迈上新台阶
在昨日的凌晨时分,OpenAI公布了三款全新的音频处理模型:GPT-Realtime-2、GPT-Realtime-Translate以及GPT-Realtime-Whisper。
根据OpenAI官方的介绍,这些新模型将赋能开发者,使其能够创造出在用户进行语音交流时,能够实时进行“推理、语言转换和文字转录”的语音应用。目前,这三款模型已向开发者群体开放了测试申请。
此次更新的核心亮点在于三款模型针对不同应用场景的明确分工。
GPT-Realtime-2专为实时语音代理(Agent)场景设计,堪称OpenAI首个具备“GPT-5级别推理能力”的语音模型。它能够应对复杂的指令,有效调用外部工具,处理对话中的意外中断,并在长时间的语音交流中保持连贯的上下文理解。
GPT-Realtime-Translate则专注于实时语音翻译任务,支持将70多种来源语言翻译成13种目标语言。
GPT-Realtime-Whisper面向实时语音转录需求,它能在用户说话的同时生成文本内容,非常适用于生成字幕、会议记录以及工作流程的更新。
同步公布的还有各项服务的定价。GPT-Realtime-2的模型计费方式为按token计算,其中音频输入的价格为每百万token 32美元,音频输出为每百万token 64美元;GPT-Realtime-Translate按分钟计费,每分钟价格为0.034美元;GPT-Realtime-Whisper同样采用按分钟计费,每分钟价格为0.017美元。
据相关报道,包括Zillow、Priceline以及德国电信在内的多家知名企业用户,已开始对这些模型进行实际测试。
此次发布标志着OpenAI在过去一年中语音技术发展战略的一次重要延伸。
#AI#大模型