OpenAI发布三款全新音频处理模型
01
三款新模型分别是什么?
首先是GPT-Realtime-2,这是OpenAI首款具备GPT-5级别推理能力的语音模型。它专为实时语音交互设计,能在处理请求的同时保持对话流畅。其核心升级包括:上下文窗口从32K扩展至128K,支持更长的对话和更复杂的任务流;支持并行工具调用,可同时处理多个后台请求;具备更强的错误恢复能力,遇到问题时能主动告知而非直接中断。该模型还提供minimal、low、medium、high、xhigh五档推理强度调节,开发者可以在延迟和推理深度之间灵活平衡。
其次是GPT-Realtime-Whisper,流式语音转文字模型。它能够在说话者讲话的同时实时生成文字记录,适用于实时字幕、会议速记、课堂笔记等场景。每分钟成本仅0.017美元,是三者中价格最低的选择。
第三款是GPT-Realtime-Translate,一款专用实时翻译模型。它支持超过70种语言的语音输入,可实时翻译为13种目标语言。与传统“说一句译一句”的模式不同,该模型能在说话者发言过程中同步输出翻译,无需等待完整句子结束,极大提升了跨语言对话的自然度。翻译每分钟仅需0.034美元,大幅降低了实时翻译的成本门槛。