OpenAI发布三款新语音模型 AI实现实时“边听边思考”

发布时间：2026-05-08 12:18阅读：11

5月8日，OpenAI在Realtime API中一次性发布了三款前沿智能语音模型——GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper，分别聚焦于语音交互对话、实时多语种翻译以及实时语音转写。这预示着智能语音技术已突破“仅能听懂”的局限，迈向了“边听边思考、边分析边执行”的全新境界。

GPT-Realtime-2：AI终于掌握了边“听”边“想”的技能

此次发布的“核心”无疑是GPT-Realtime-2。作为一个真正具备“人性化表达与执行力”的语音智能体，其最大亮点在于——这是OpenAI首个拥有GPT-5级推理能力的语音模型。

过去许多语音助手的“思维”模式较为单一：你令“放首音乐”，它便播放；你令“关灯”，它便执行。然而，若一次性下达三个连续指令且中途更改两次，它常会陷入“死机”状态。反观GPT-Realtime-2，它能在对话期间实时捕捉信息、边听边解析并迅速给出精准反馈，绝非那种机械式的问答模式。

这种“具备生命力”的语音能力背后，

← 上一篇：零基础冲刺AI创意赛：报名仅剩3天下一篇：威尔·史密斯吃面：AI视频评测的意外标尺 →