AI每日速递:苹果新款AirPods集成摄像头,OpenAI发布三款语音模型
多语言语音克隆 TTS 模型 OmniVoice
01
一款集成了摄像头的 AirPods 正处于产品开发的后期验证阶段,最快可能在今年九月伴随升级后的 Siri 版本一同面市。这款 AirPods 的摄像头并非传统意义上的拍照或录像设备,而是作为 AI 版 Siri 的视觉输入端。两侧耳塞均配备了低分辨率摄像头,用于捕捉用户周遭环境的视觉信息,并实时传输给 Siri 进行分析。此举旨在让用户无需依赖手机,即可通过语音指令与环境进行互动,例如在冰箱前咨询食谱建议,或询问陌生物品的用途,Siri 都能依据摄像头获取的视觉信息提供准确的解答,将视觉智能无缝融入日常语音交互体验。
02
OpenAI 正式推出三款语音AI 模型
OpenAI 近期正式对外发布了三款专为实时语音交互场景设计的 AI 模型,并通过 Realtime API 提供给开发者使用。这些模型的推出旨在克服当前语音交互中存在的延迟和多语言沟通障碍等问题,为下一代语音应用提供强大的技术支持。GPT-Realtime-2 作为首款具备 GPT-5 级别推理能力的语音模型,专为实时对话场景优化,能够在保持对话流畅性的同时,深度思考并处理用户提出的复杂指令,甚至支持多线程调用外部工具。另一款模型 GPT-Realtime-Translate 则专注于解决跨语言实时沟通的难题,支持将 70 多种语言输入翻译成 13 种输出语言,其翻译速度能够实时跟上说话者的语速,媲美专业的同声传译效果。第三款模型 GPT-Realtime-Whisper 专注于实现低延迟的流式音频转录,能够做到“随说随转”,从而彻底消除实时字幕生成、会议记录等应用中的等待时间。
03
追觅全球总裁:汽车业务目标是全球市占率第一
追觅科技全球总裁常新伟在近期接受采访时,明确表达了公司在汽车业务领域的雄心壮志,目标是成为全球市场占有率第一,并强调公司所有涉足的领域都要争做第一。目前,追觅在扫地机器人和洗地机等成熟市场已经占据领先地位,其中扫地机器人业务的利润率接近 30%,为公司带来了稳定的现金流。与外界对“盲目扩张”的担忧不同,追觅的业务拓展始终建立在稳健的财务基础之上——公司自成立以来一直保持累计盈利,并未依靠风险投资来获取市场份额,这使其与过往的某些“烧钱”模式有所区别。常新伟指出,追觅的核心竞争力在于底层技术的持续创新,并依靠高利润的旗舰产品来支撑业务发展,而非不计成本地追求规模扩张。对于汽车业务,追觅已有明确的战略规划。不同于当前市场上的价格竞争,追觅将专注于高端市场,计划推出价格百万级甚至千万级的量产车型,主要面向高净值人群,采取“小而精”的高利润发展策略。
04
多语言语音克隆 TTS 模型 OmniVoice
小米AI实验室的Kaldi团队最新开源了一个名为OmniVoice的多语言语音克隆TTS模型。该模型以其简洁的架构和卓越的性能,首次实现了对超过600种语言的语音克隆支持,极大地拓展了多语言语音合成技术的语种覆盖范围。OmniVoice采用了创新的双向Transformer架构,仅需一个单一网络即可直接完成文本到语音的转换,是当前架构最为简洁的非自回归TTS模型之一。在中文和英文语音合成的测试中,OmniVoice的合成质量超越了目前市面上主流的同类模型,同时其训练和推理效率也得到了显著提升:一天之内即可完成10万小时的训练任务,推理速度更是达到了实时速度的40倍,能够快速满足大规模语音合成的需求。
05
OpenSearch-VL
腾讯混元团队联合加州大学洛杉矶分校、香港中文大学等国内外研究机构,在arXiv上发布了OpenSearch-VL这一开源训练方案。该方案为训练多模态深度搜索AI智能体提供了一套从数据构建到算法优化的完整流程。OpenSearch-VL的出现,正是为了解决当前多模态AI智能体训练中的痛点。在数据构建方面,研究团队通过对维基百科进行多跳路径采样的方式来生成训练数据集,旨在避免模型过度依赖单一检索结果而走“捷径”,从而迫使其学习多步骤的推理能力,从根本上提升智能体的逻辑思维能力。在工具集成方面,该方案整合了文本搜索、图像搜索、OCR识别、图像裁剪、锐化、超分辨率以及透视校正等七类工具,允许智能体在检索知识前先对图像进行预处理,从而更精确地处理复杂的视觉信息。此外,“致命感知GRPO”训练算法的提出,进一步提高了训练效率:当工具调用出现失败时,该算法仅会屏蔽失败后的无效步骤,保留此前有效的推理过程,避免了整条训练数据的浪费,大幅提升了数据利用率。
长按二维码识别关注