音频模型_标签-酷阅新闻

美国拟禁止销售 AI 玩具；Even Realities 智能眼镜获 1.5 亿融资，美团腾讯领投丨日报

01技术热点OpenAI 推出 GPT-Realtime-2.1 和 GPT-Realtime-2.1-mini 两款实时音频模型。GPT-Realtime-2.1 大幅提升了对数字和字母信息的处理能力，而 GPT-Realtime-2.1-mini 则首次在迷你系列中融入推理和工具调用功能。这些新模型与已正式上线的 Realtime API 配合，致力于为开发者提供低延迟、可调节推理强度的原生流式语音交互体验。OpenAI Developers 宣布，GPT-Realtime-2.1 和 GPT-Rea

2026-07-07 19:51:03 | 17 阅读

OpenAI发布三款全新音频处理模型

01三款新模型分别是什么？首先是GPT-Realtime-2，这是OpenAI首款具备GPT-5级别推理能力的语音模型。它专为实时语音交互设计，能在处理请求的同时保持对话流畅。其核心升级包括：上下文窗口从32K扩展至128K，支持更长的对话和更复杂的任务流；支持并行工具调用，可同时处理多个后台请求；具备更强的错误恢复能力，遇到问题时能主动告知而非直接中断。该模型还提供minimal、low、medium、high、xhigh五档推理强度调节，开发者可以在延迟和推理深度之间灵活平衡。其次是GPT-Realt

2026-05-12 18:08:42 | 33 阅读

OpenAI连推三款音频模型，语音交互实现零延迟突破

2026年5月8日，人工智能行业迎来了又一个历史性时刻！OpenAI正式向全球开发者推出了三款全新的实时音频API模型，彻底颠覆了传统语音AI“先转录、后处理、再回复”的滞后流程，实现了实时推理、实时翻译与实时转录的三大能力升级，从根本上重塑了人机语音交互的逻辑。这三款模型发布后，迅速成为了开发者和企业级应用关注的焦点，下面为您深度解析其核心亮点👇GPT-Realtime-2具备GPT-5级推理能力，首款真正理解对话的语音模型作为本次发布的旗舰产品，它是OpenAI首个集成GPT-5级别推理能力的语音模型

2026-05-08 08:40:03 | 23 阅读