标签

语音AI进入实用阶段:OpenAI Realtime API全面解析

发布时间:2026-05-18 08:50来源:微信阅读:5

● LIVE

▌ OPENAI

015

AI翻译局 · PRODUCT TEARDOWN · 2026.05.12

语音AI进入实用阶段

▸ 📞SIP· 接入公共电话网络

▸ 🔌MCP· 远程工具自动调用

▸ 👁Image· 视觉语音同步

2026 年 5 月 8 日,OpenAI 一口气推出了三个实时语音模型,同时让 Realtime API 从 beta 升级到正式版本。当天多数科技媒体的标题是"OpenAI 又发布新模型"——但这次发布实际上被严重低估了。

真正重要的不在模型本身,而在于 API 层面的三个关键升级:SIP 电话接入、MCP 远程工具协议、图像输入功能。这三项技术整合之后,Voice Agent 终于从"能聊天的玩具"进化为"能胜任工作的员工"。

这一期,AI翻译局为你详细拆解"用电话呼叫 AI"这件事。

WHISPER · TRANSLATE · REALTIME-2

这三个模型并非替代关系,而是各司其职的角色。以下是它们的能力定位:

图 1 · 三件套能力矩阵:转写 / 翻译 / 对话

Realtime-2 是这波发布的旗舰产品:Big Bench Audio 达到 96.6%(上一代仅 81.4%),首次将"能说话"与"能推理"深度融合。它还学会了在等待工具返回结果时说"让我查一下"——这一点点社交互动能力,已经让客户实际使用时的成功率明显提高。

Translate 是"价格杀手"——每分钟 3 分钱的同声传译,直接击穿了大多数企业现有的翻译外包定价。Whisper 则专注于字幕和会议纪要这类"听写"场景,单独销售、单独计费。

SIP · MCP · IMAGE INPUT

Voice Agent 在 2024 年就有演示版本,为什么迟迟无法投入实际生产?答案是缺少三个工程层面的抽象:如何接入电话、如何调用工具、如何"看着说"。这次 OpenAI 把三项全部补齐了。

图 2 · SIP + MCP + 图像输入:三个底层抽象首次同时就位

SIP 是上世纪 90 年代就已存在的协议,企业呼叫中心、桌面电话、PBX 系统都依赖它运行。将 SIP 接入 Realtime API 的意义在于:Agent 可以拨打或接听任何真实的电话号码。客户用手机拨打 400 热线,接听方是 GPT-Realtime-2,接收需求、调用 CRM、完成业务、挂断电话——整个过程不经过任何"网页客服"中间层。

这意味着 Voice Agent 不再是 Web Demo 的玩具,而是真正能够替代或补充人工客服的存在。Retell、Vapi、Bland 等电话 Agent SaaS 公司之前一直在努力补足这个能力,现在 OpenAI 把"电话接入"做成了 API 的一个参数。

这是一个颇具意味的"收编对手"策略。MCP(Model Context Protocol)是 Anthropic 在 2024 年底开源的工具协议,被 Cursor / Claude Code / Cline 等团队迅速推广为事实标准。

这次 Realtime API 只需一个 session 配置项就能直接连接远程 MCP 服务器——开发者无需再手动编写一个个 function call 桥接代码。这意味着已经接入 MCP 生态的 Slack / Gmail / Linear / GitHub / Notion 工具,在 Voice Agent 中可以立即使用。

另外还有一项小但关键的优化:异步函数调用不再中断对话。Agent 边查询 CRM 边和客户聊天气,体验比 2024 年那种"请稍等两秒"的卡顿自然得多。

在同一个 Realtime session 中,你可以输入图片(照片、屏幕截图、产品图)。Agent 同时拥有了眼睛、耳朵、嘴巴。一个客服场景的真实流程是:用户对着摄像头说"我家这台净水器漏水了",Agent 看着画面、问"漏水的位置是不是这里?"、识别型号、调用维修 API、安排上门服务。

这不是新功能,但被整合进了实时语音通道——延迟、上下文、轮次衔接,第一次全部顺畅无阻。

LIVE CASES · NOT DEMOS

这不是 OpenAI 自己的演示——而是已经投入使用的客户案例。每个案例都展现了"语音 + 工具 + 推理"这三件套协同工作的效果:

🏠 Zillow · 房产咨询助手

"帮我找一个 25 万以内、避开主干道、附近有幼儿园的房子"——Agent 听完,筛选 MLS 房源、自动预约看房时间,全程通过语音完成。

✈️ Priceline · 旅行规划管家

航班延误了?告诉 Agent"把酒店入住时间推迟两小时、顺便查下 TSA 安检排队时间"。落地后切换成当地语言陪你与出租车司机交流。

🥗 Healthify · AI 营养教练 Ria

通过语音聊天记录饮食并给出反馈;遇到复杂情况自动转接给真人营养师——AI 与人工无缝衔接,不留交接空档。

🗣️ Speak · 场景对话训练

扮演咖啡馆服务员、出租车司机、签证官——你用目标语言完成真实场景对话,Agent 始终耐心。

📞 Deutsche Telekom · 母语客服

客户用土耳其语 / 阿拉伯语 / 波兰语投诉,Agent 实时翻译成德语转人工。德电的呼叫中心不再被语言分割。

✍️ Wispr Flow · 让用户放下键盘

Mac 上的语音输入应用,号称"让用户宁愿说话也不愿敲键盘",5 月登顶 Product Hunt 实时语音 AI 榜单。支持 100+ 语言、自动按写作风格润色。

OPENAI VS THE WORLD

Realtime API 不是这条赛道的唯一玩家,每家都有自己的一技之长。这张表帮你决定该用谁:

图 3 · 实时语音 AI 六国杀(数据