OpenAI发布三大语音新模型，升级实时人机交互体验

发布时间：2026-05-08 10:57阅读：16

OpenAI于本周四正式宣布，其API接口新增多项语音智能功能。旨在赋能开发者构建应用，达成与用户的语音交流、语音转文字及即时对话翻译。

全新的GPT-Realtime-2作为新一代语音模型，能产出极度逼真的人声，达成顺畅的人机即时对话。对比前代GPT-Realtime-1.5，此模型拥有GPT-5层级的推理水准，能处理用户更繁杂的指令与需求。

OpenAI同时发布了GPT-Realtime-Translate即时翻译模型。该模型能紧贴对话步调，提供同步的会话翻译服务。涵盖超过70种输入识别语言及13种语音输出播报语言。

此外，平台还增添了GPT-Realtime-Whisper即时语音转写功能，可在对话全过程中同步实现语音至文字的转换。

OpenAI指出：“本次发布的系列模型，把实时音频交互从基础的问答形式，跃升为拥有实际业务落地能力的语音交互系统。不仅能实时聆听、逻辑推演、会话翻译、语音转写，还能在对话期间自动执行相关任务。”

此次功能更新适用范围极广。急需客服升级的企业是核心目标群体。同时，新功能也能延伸至教育、传媒、线下活动、创作者平台等众多板块。

尽管此类工具的企业实用性显著，但仍有被滥用的风险。OpenAI已构建安全风控防线，防止功能被用于垃圾推广、网络欺诈及各类网络违规行为。系统内设风控触发机制，一旦判定会话违背有害内容准则，即刻终止对话。

所有新款语音模型均已接入OpenAI实时API。翻译与语音转写模型按分钟计费，而GPT-Realtime-2则采用令牌用量计费方式。

来源链接：https://techcrunch.com/2026/05/07/openai-launches-new-voice-intelligence-features-in-its-api/