语音模_标签-酷阅新闻

OpenAI语音模型革新：AI助手争夺“听觉入口”新时代

硅基工具人语音入口再升级OpenAI于2026-05-07发布新语音模型与Realtime API相关能力，把实时对话、语音理解、翻译和转写放在同一次更新里。相比单独提升音色或识别率，这次更像一次面向应用层的补课：让模型听得更快，说得更顺，也能在对话中处理更复杂的任务。发布信息里最值得注意的是三款语音模型同时出现。它们覆盖实时语音、语音到文本等不同环节，指向的是一条完整链路。用户开口、系统理解、模型推理、再用声音回应，这几步如果拆开看都不新鲜，难点在于把它们压到一次自然对话的节奏里。语音交互对延迟的容忍度

2026-05-09 12:40:43 | 16 阅读

OpenAI震撼发布！三款语音模型开启AI实时交互新时代，设计师必备技能解析

2026年5月8日，OpenAI未做任何预告，一次性推出了三款实时语音处理模型。这一次，AI终于实现了"边听边想边执行"的能力。2026年5月8日凌晨，OpenAI官方未提前透露任何消息，直接宣布了一项足以重塑行业格局的重大更新。三款创新型实时语音模型同步登场：官方明确定义：这是OpenAI有史以来开发的最为智能的语音系统，也是首次将GPT-5等级的深度思考能力，全面整合进实时语音对话环境中。为何称之为语音AI的"革命性突破时刻"？在此之前的所有AI语音系统，本质上都只是&

2026-05-09 08:50:42 | 22 阅读

AI早报：Claude进驻办公软件、OpenAI发布三款语音模型、苹果AirPods配Siri

Claude现已入驻Excel、Word、PPT及Outlook，实现跨应用对话的无缝衔接，强势对标微软Copilot。OpenAI一日之内推出了三款实时语音模型，将GPT-5级别的推理能力引入语音交互。传闻苹果带摄像头的AirPods已进入DVT阶段，配备由Gemini驱动的新版Siri，预计最快9月发布。12条资讯，5分钟速览。动态：Anthropic发布Claude for Microsoft 365，覆盖Excel、Word、PPT，Outlook开启公测。其核心优势并非简单的“Office内AI

2026-05-09 08:37:53 | 16 阅读

AI行业快讯：2026年5月8日版

📝 摘要本日人工智能圈核心动态汇总：OpenAI推出三款语音模型、国产AI芯片达成亚洲首例8nm eMRAM流片、昆仑芯开启科创板IPO辅导、DeepSeek V4突破海外围堵等8条重点 🌍 国际动态【OpenAI接连推出三款语音模型，AI"开口说话"】 5月8日，OpenAI官方上线GPT-Realtime-2、GPT-Realtime-Translate及GPT-Realtime-Whisper三款音频模型，全方位增强AI实时听觉、口语交流、翻译及转录功能。GPT-Realtime

2026-05-08 20:08:27 | 35 阅读

AI简报：小米推出OmniVoice开源模型；阶跃星辰筹备上市：大模型产业资本融合加速

算力豹AI资讯每日资讯近期AI算力动态汇总01小米开源OmniVoice：AI语音迈向“全语种统一大模型”新时代小米公司AI实验室正式推出并开源了多语言语音克隆系统OmniVoice，据称支持超过600种语言及方言，能在低资源小语种环境下达成高水准语音合成。不同于传统TTS系统所需的多模型、多阶段拼接方式，OmniVoice利用单一的Transformer架构，致力于通过一个统一模型实现文本到语音的直接生成。（图片来源：IT之家）技术突破的核心在于“利用小模型架构实现大规模语种泛化”。OmniVoice不

2026-05-08 20:00:44 | 14 阅读

5月8日AI快讯：OpenAI推新语音模型，豆包开启付费，国标落地

2026年5月8日，AI领域消息量爆表——OpenAI同时发布三款语音模型、自研芯片合作遭遇180亿融资困境、马斯克的法律纠纷曝光AI安全漏洞；国内方面，工信部等三部门联合发布AI终端国家标准、豆包在3.45亿月活用户基础上引入分层付费机制、AMD也展示了其最新产品。以下为您盘点今日全球AI领域的重大动态。5月8日，OpenAI宣布升级Realtime API，并同步发布三款新的语音智能模型：OpenAI表示：GPT-Realtime-2是目前最先进的语音模型（

2026-05-08 16:00:50 | 12 阅读

重庆AI高薪招聘汇总（五险一金包住）0508期

算法工程师1万-1.5万元/月岗位职责：1．负责图像类算法研发，涵盖图像分类、目标检测、语义分割以及大模型相关方向；2．承担算法测试、分析与验证工作，形成并交付实验报告；3．负责深度学习算法在指定硬件平台上的部署落地；4．围绕业务相关技术难点开展攻关，推动问题解决与前瞻研究；5．开展技术分享、专利申报与学术论文撰写，增强公司技术影响力。任职资格：1．硕士及以上学历，生物医学工程、计算机、模式识别、信号处理、自动化等相关专业，数学基础扎实，211/985院校背景优先；有深度学习、图像处理、视频处理经验者更

2026-05-08 15:11:49 | 16 阅读

OpenAI推出三款革新语音模型，AI沟通能力迈上新台阶

在昨日的凌晨时分，OpenAI公布了三款全新的音频处理模型：GPT-Realtime-2、GPT-Realtime-Translate以及GPT-Realtime-Whisper。根据OpenAI官方的介绍，这些新模型将赋能开发者，使其能够创造出在用户进行语音交流时，能够实时进行“推理、语言转换和文字转录”的语音应用。目前，这三款模型已向开发者群体开放了测试申请。此次更新的核心亮点在于三款模型针对不同应用场景的明确分工。GPT-Realtime-2专为实时语音代理（Agent）场景设计，堪称OpenAI首

2026-05-08 14:50:34 | 10 阅读

OpenAI发布三款新语音模型 AI实现实时“边听边思考”

5月8日，OpenAI在Realtime API中一次性发布了三款前沿智能语音模型——GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper，分别聚焦于语音交互对话、实时多语种翻译以及实时语音转写。这预示着智能语音技术已突破“仅能听懂”的局限，迈向了“边听边思考、边分析边执行”的全新境界。GPT-Realtime-2：AI终于掌握了边“听”边“想”的技能此次发布的“核心”无疑是GPT-Realtime-2。作为一个真正具备“人性化表达与执行力”

2026-05-08 12:18:29 | 11 阅读

OpenAI发布三大语音新模型，升级实时人机交互体验

OpenAI于本周四正式宣布，其API接口新增多项语音智能功能。旨在赋能开发者构建应用，达成与用户的语音交流、语音转文字及即时对话翻译。全新的GPT-Realtime-2作为新一代语音模型，能产出极度逼真的人声，达成顺畅的人机即时对话。对比前代GPT-Realtime-1.5，此模型拥有GPT-5层级的推理水准，能处理用户更繁杂的指令与需求。OpenAI同时发布了GPT-Realtime-Translate即时翻译模型。该模型能紧贴对话步调，提供同步的会话翻译服务。涵盖超过70种输入识别语言及13种语音输

2026-05-08 10:57:08 | 16 阅读

AI每日速递：苹果新款AirPods集成摄像头，OpenAI发布三款语音模型

多语言语音克隆 TTS 模型 OmniVoice01一款集成了摄像头的 AirPods 正处于产品开发的后期验证阶段，最快可能在今年九月伴随升级后的 Siri 版本一同面市。这款 AirPods 的摄像头并非传统意义上的拍照或录像设备，而是作为 AI 版 Siri 的视觉输入端。两侧耳塞均配备了低分辨率摄像头，用于捕捉用户周遭环境的视觉信息，并实时传输给 Siri 进行分析。此举旨在让用户无需依赖手机，即可通过语音指令与环境进行互动，例如在冰箱前咨询食谱建议，或询问陌生物品的用途，Siri 都能依据摄像头

2026-05-08 10:51:09 | 14 阅读

OpenAI革新语音交互：低延迟与强推理并举

硅基工具人OpenAI正以前所未有的速度推进其语音技术的边界。OpenAI于2026年5月7日隆重推出其最新的语音模型及Realtime API功能，其战略意图十分明确：为开发者和产品团队提供低延迟的语音交互、推理、翻译及转写能力。对于一个已将文本对话确立为主要入口的公司而言，语音并非附加功能，而是其下一代人机交互入口的关键战场。本次发布的亮点在于“三款全新语音模型”的同步亮相。官方并未将此次更新包装成单一性能的提升，而是将实时语音能力、语音理解能力与文本化能力置于同等重要的讨论层面。语音助手、客服以及多

2026-05-08 10:16:05 | 26 阅读

OpenAI发布三款实时音频模型

美东时间5月7日，OpenAI正式上线三款实时音频模型：GPT‑Realtime‑2、GPT‑Realtime‑Translate和GPT‑Realtime‑Whisper，主要面向语音互动、即时翻译与语音转录等场景。GPT‑Realtime‑2拥有接近GPT‑5级的推理能力，可应对较为复杂的指令，支持工具调用，并能在较长对话中保持语境连贯；Translate可覆盖70+种输入语言，实时翻译为其中13种输出语言，无需用户提供完整句子；Whisper提供低延迟的流式语音转文字能力，适用于会议字幕呈现与现场实

2026-05-08 07:24:12 | 11 阅读

AI日报：DeepSeek首轮融资估值达450亿美元，Google内测智能体Remy挑战OpenClaw

5月7日·瞰AI1. Anthropic 与 SpaceX 达成算力协议，获超 22 万块英伟达 GPU 2. ChatGPT 广告平台扩容：自助投放上线，按点击付费正式引入 3. DeepSeek 首轮融资曝光，估值 450 亿美元 4. 苹果因 AI Siri 延迟赔偿 2.5 亿美元，每台 iPhone 最高可获赔 95 美元 5. AI 游戏平台 Astrocade 完成 5600 万美元融资，红杉领投、李飞飞任首席科学官 6. 曝 Google 内部测试 AI 智能体「Remy」对标 OpenC

2026-05-07 11:40:43 | 15 阅读

AI日报：AI正从“炫技”转向“实战交付”

今日最关键的信号十分明确：AI agent 的角逐核心，已由“能否实现”变为“能否在现实场景中稳定完成”。企业端正在完善流程、权限、上下文及变更管理；基础模型与工具链则持续强化多模态、语音、长上下文、结构化输出及安全自动化。真正拉开差距的，不再仅是模型本身，而是谁能将 agent 可靠地融入工作流。简而言之：AI 的主战场，正由“展示智慧”转变为“稳定办事”。Aaron Levie 的观点十分直白：Anthropic 和 OpenAI 均在推动企业内部部署 AI agents，但痛点已非“模型是否足够聪明

2026-05-07 10:21:10 | 29 阅读