OpenAI发布三大语音新模型,升级实时人机交互体验
OpenAI于本周四正式宣布,其API接口新增多项语音智能功能。旨在赋能开发者构建应用,达成与用户的语音交流、语音转文字及即时对话翻译。
全新的GPT-Realtime-2作为新一代语音模型,能产出极度逼真的人声,达成顺畅的人机即时对话。对比前代GPT-Realtime-1.5,此模型拥有GPT-5层级的推理水准,能处理用户更繁杂的指令与需求。
OpenAI同时发布了GPT-Realtime-Translate即时翻译模型。该模型能紧贴对话步调,提供同步的会话翻译服务。涵盖超过70种输入识别语言及13种语音输出播报语言。
此外,平台还增添了GPT-Realtime-Whisper即时语音转写功能,可在对话全过程中同步实现语音至文字的转换。
OpenAI指出:“本次发布的系列模型,把实时音频交互从基础的问答形式,跃升为拥有实际业务落地能力的语音交互系统。不仅能实时聆听、逻辑推演、会话翻译、语音转写,还能在对话期间自动执行相关任务。”
此次功能更新适用范围极广。急需客服升级的企业是核心目标群体。同时,新功能也能延伸至教育、传媒、线下活动、创作者平台等众多板块。
尽管此类工具的企业实用性显著,但仍有被滥用的风险。OpenAI已构建安全风控防线,防止功能被用于垃圾推广、网络欺诈及各类网络违规行为。系统内设风控触发机制,一旦判定会话违背有害内容准则,即刻终止对话。
所有新款语音模型均已接入OpenAI实时API。翻译与语音转写模型按分钟计费,而GPT-Realtime-2则采用令牌用量计费方式。
来源链接:https://techcrunch.com/2026/05/07/openai-launches-new-voice-intelligence-features-in-its-api/