标签

OpenAI发布三款新语音模型 AI实现实时“边听边思考”

发布时间:2026-05-08 12:18来源:微信阅读:6

5月8日,OpenAI在Realtime API中一次性发布了三款前沿智能语音模型——GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper,分别聚焦于语音交互对话、实时多语种翻译以及实时语音转写。这预示着智能语音技术已突破“仅能听懂”的局限,迈向了“边听边思考、边分析边执行”的全新境界。

GPT-Realtime-2:AI终于掌握了边“听”边“想”的技能

此次发布的“核心”无疑是GPT-Realtime-2。作为一个真正具备“人性化表达与执行力”的语音智能体,其最大亮点在于——这是OpenAI首个拥有GPT-5级推理能力的语音模型。

过去许多语音助手的“思维”模式较为单一:你令“放首音乐”,它便播放;你令“关灯”,它便执行。然而,若一次性下达三个连续指令且中途更改两次,它常会陷入“死机”状态。反观GPT-Realtime-2,它能在对话期间实时捕捉信息、边听边解析并迅速给出精准反馈,绝非那种机械式的问答模式。

这种“具备生命力”的语音能力背后,