OpenAI发布三款全新音频处理模型

发布时间：2026-05-12 18:08阅读：33

三款新模型分别是什么？

首先是GPT-Realtime-2，这是OpenAI首款具备GPT-5级别推理能力的语音模型。它专为实时语音交互设计，能在处理请求的同时保持对话流畅。其核心升级包括：上下文窗口从32K扩展至128K，支持更长的对话和更复杂的任务流；支持并行工具调用，可同时处理多个后台请求；具备更强的错误恢复能力，遇到问题时能主动告知而非直接中断。该模型还提供minimal、low、medium、high、xhigh五档推理强度调节，开发者可以在延迟和推理深度之间灵活平衡。

其次是GPT-Realtime-Whisper，流式语音转文字模型。它能够在说话者讲话的同时实时生成文字记录，适用于实时字幕、会议速记、课堂笔记等场景。每分钟成本仅0.017美元，是三者中价格最低的选择。

第三款是GPT-Realtime-Translate，一款专用实时翻译模型。它支持超过70种语言的语音输入，可实时翻译为13种目标语言。与传统“说一句译一句”的模式不同，该模型能在说话者发言过程中同步输出翻译，无需等待完整句子结束，极大提升了跨语言对话的自然度。翻译每分钟仅需0.034美元，大幅降低了实时翻译的成本门槛。

← 上一篇：AI 赋能课堂，共筑教育新篇章 | 我校举办人工智能教学应用培训下一篇：Wolfspeed季度财报出炉：AI数据中心业务表现抢眼 →