标签

AI 前沿速递:语音突破与行业变局 (5 月 25 日)

一、语音模型阶跃星辰正式推出 StepAudio 2.5 Realtime 实时语音模型,该模型能深度解析语气、速率及停顿等副语言细节。它支持个性化定制,内置上万种原生人格模板,可灵活组合出数百万种独特特征。二、开发工具Replit Agent 携手 Squidler 达成集成,打造全自动化的 AI 质保流程。用户仅需通过自然语言阐述需求,Agent 即负责构建,Squidler 随后自动执行测试并反馈修复方案,彻底告别手动编写测试脚本。三、行业动态Anthropic 正推进超 300 亿美元的融资计划,

2026-05-25 09:13:02  |  7 阅读

OpenAI 推出语音模型新系列,同传行业受冲击?

语音技术的迅猛发展,正逐渐改变翻译行业的未来走向。5月7日,OpenAI 推出了全新的语音模型系列,其官方博客将其定义为「专为实时语音场景打造的新一代模型」。该系列包含三个子模型,分别针对推理、翻译和转写任务进行了专项优化,目前 API 已开放调用。01 三款模型各司其职此次发布的三款模型分别为:实时推理模型(主打低延迟对话)、翻译模型(实现多语言即时互译)、转写模型(追求高准确率语音转文字)。OpenAI 在博客中强调,翻译模型的延迟已降至「用户几乎无法察觉」的程度。这种分工明确的架构设计,取代了以往「

2026-05-18 08:34:06  |  3 阅读

AI领域24小时热点速递(5月13日)

【AI资讯日报 | 05月13日】24小时AI圈:OpenAI三连发语音模型,阿里千问×淘宝闭环,Meta发Muse Spark 🔥 GPT‑5.5 Instant 上线 & 三款实时语音模型发布 🔥 Thinking Machines Lab 交互语音模型 TML‑Interaction‑Small 🔥 千问与淘宝全面打通,AI购物闭环落地 🔥 Meta 自研模型 Muse Spark 发布 🔥 Claude Code Agent View 上线,多智能体调度“监工屏”

2026-05-13 13:16:29  |  5 阅读

AI行业周报(5月6日至5月10日)

技术动态01百度:发布基础大模型文心大模型5.15月9日,百度发布基础大模型文心大模型5.1。文心5.1基于文心5.0训练完成,从文心5.0子模型矩阵中提取最优子结构,充分继承文心5.0知识,显著降低预训练成本。创新性提出弹性训练框架,在单次预训练中,通过动态采样机制,同时优化大量参数各异的子模型,构建出覆盖多种参数规模与计算开销的子模型矩阵。技术报告:https://yiyan.baidu.com/blog原文链接>>文心 5.1正式上线!02阶跃星辰:发布实时语音大模型StepAudio

2026-05-11 21:36:57  |  5 阅读

AI热点日报|每日3分钟速览AI前沿动态(2026-05-11)

时间:2026-05-11 08:17 · 共收录 10 条热点 · 关键词:AI热点、语音模型、阶跃星辰、文心升级、蚂蚁百灵、通义灵码、智能体、科博会阶跃星辰发布全新实时语音大模型StepAudio 2.5 Realtime,该模型拥有三大突出特性:卓越的副语言识别能力,能精确捕捉语调、语速、停顿等情感细微变化;海量角色定制功能,可从性格特征到语言习惯进行深度个性化设置,创造独一无二的AI形象;对话智能全面升级,情商与智商同步提升。• 详情:https://mp.weixin.qq.com/s/P0x9

2026-05-11 08:31:21  |  6 阅读

AI界本周核心动态

过去一周人工智能领域热闹非凡,我们精选了9条最重磅的消息。OpenAI 推出重磅新品,Anthropic 连发多项研究成果,而 xAI 则宣告解散。下面逐一盘点。1.OpenAI 推出 GPT-Realtime-2 语音模型(5月7日)这是首个能够投入生产环境的端到端语音 Agent 模型,具备实时推理能力并涵盖70种语言翻译。经过众多开发者的实际测试,反馈极佳。语音 AI 技术已跨越"听懂"迈向"执行任务"的新台阶。2.Anthropic 携手 SpaceX 扩充算力(5

2026-05-10 20:35:18  |  8 阅读

AI行业每日观察 2026年05月10日

今日汇总 20 项 AI 产业新闻 | 由「坤哥学AI」智能编辑1. 马斯克痛失华裔核心人才,xAI Grok 预训练主管庄钧堂正式离职原标题:《xAI 痛失华裔骨干:预训练主管宣布离职,马斯克再度遭遇人才流失》xAI 再度失去一位华裔核心成员,预训练主管庄钧堂昨日公开宣布离职决定。在此之前,庄钧堂已在 xAI 任职达两年之久。任职期间,他全面负责 Grok 系列模型的预训练工作,并承担 Grok 在 X 平台和 Tesla 车载系统的语音模型预训练任务...

2026-05-10 20:04:21  |  6 阅读

AI前沿|文心5.1低成本登顶搜索榜,DeepSeek融资破纪录,OpenAI首届AI原生代毕业

1. 百度发布文心大模型5.1版本,以行业6%的预训练成本实现搜索榜登顶5月9日,百度推出新一代基础大模型文心5.1,运用"多维弹性预训练"技术,仅用同类模型约6%的预训练成本便达到基础性能领先水平。在LMArena大模型竞技场最新榜单中,文心5.1凭借1223分斩获国内搜索榜冠军、全球第四,成为唯一入围的国产模型。其智能体能力已反超DeepSeek-V4-Pro,创意文本生成水平媲美Gemini 3.1 Pro,推理性能逼近业界顶尖闭源模型。该模型将总参数缩减至约三分之一、激活参数压缩至约二分之一,体现

2026-05-09 13:46:23  |  11 阅读

人工智能前沿动态速览

国家相关部门联合推出了《人工智能终端智能化分级》的国家标准,该标准涵盖了手机、电脑、电视、智能眼镜、汽车座舱、音箱以及耳机等七大类产品。标准将产品的智能化水平划分为 L1(响应级)至 L4(协同级)四个等级。此举意味着消费者在选购人工智能家电和手机时,将拥有一个统一的“智商”衡量尺度,有助于遏制概念炒作,让用户能更清楚地了解设备的智能水平。OpenAI 推出了包括 GPT-Realtime-2 在内的三款新型语音模型,这些模型具备 GPT-5 级别的推理能力,能够实现边听边思考,并保证对话流畅无卡顿。同时

2026-05-09 13:45:39  |  13 阅读

OpenAI语音模型革新:AI助手争夺“听觉入口”新时代

硅基工具人语音入口再升级OpenAI于2026-05-07发布新语音模型与Realtime API相关能力,把实时对话、语音理解、翻译和转写放在同一次更新里。相比单独提升音色或识别率,这次更像一次面向应用层的补课:让模型听得更快,说得更顺,也能在对话中处理更复杂的任务。发布信息里最值得注意的是三款语音模型同时出现。它们覆盖实时语音、语音到文本等不同环节,指向的是一条完整链路。用户开口、系统理解、模型推理、再用声音回应,这几步如果拆开看都不新鲜,难点在于把它们压到一次自然对话的节奏里。语音交互对延迟的容忍度

2026-05-09 12:40:43  |  6 阅读

OpenAI震撼发布!三款语音模型开启AI实时交互新时代,设计师必备技能解析

2026年5月8日,OpenAI未做任何预告,一次性推出了三款实时语音处理模型。这一次,AI终于实现了"边听边想边执行"的能力。2026年5月8日凌晨,OpenAI官方未提前透露任何消息,直接宣布了一项足以重塑行业格局的重大更新。三款创新型实时语音模型同步登场:官方明确定义:这是OpenAI有史以来开发的最为智能的语音系统,也是首次将GPT-5等级的深度思考能力,全面整合进实时语音对话环境中。为何称之为语音AI的"革命性突破时刻"?在此之前的所有AI语音系统,本质上都只是&

2026-05-09 08:50:42  |  12 阅读

AI早报:Claude进驻办公软件、OpenAI发布三款语音模型、苹果AirPods配Siri

Claude现已入驻Excel、Word、PPT及Outlook,实现跨应用对话的无缝衔接,强势对标微软Copilot。OpenAI一日之内推出了三款实时语音模型,将GPT-5级别的推理能力引入语音交互。传闻苹果带摄像头的AirPods已进入DVT阶段,配备由Gemini驱动的新版Siri,预计最快9月发布。12条资讯,5分钟速览。动态:Anthropic发布Claude for Microsoft 365,覆盖Excel、Word、PPT,Outlook开启公测。其核心优势并非简单的“Office内AI

2026-05-09 08:37:53  |  8 阅读

AI行业快讯:2026年5月8日版

📝 摘要 本日人工智能圈核心动态汇总:OpenAI推出三款语音模型、国产AI芯片达成亚洲首例8nm eMRAM流片、昆仑芯开启科创板IPO辅导、DeepSeek V4突破海外围堵等8条重点 🌍 国际动态 【OpenAI接连推出三款语音模型,AI"开口说话"】 5月8日,OpenAI官方上线GPT-Realtime-2、GPT-Realtime-Translate及GPT-Realtime-Whisper三款音频模型,全方位增强AI实时听觉、口语交流、翻译及转录功能。GPT-Realtime

2026-05-08 20:08:27  |  6 阅读

AI简报:小米推出OmniVoice开源模型;阶跃星辰筹备上市:大模型产业资本融合加速

算力豹AI资讯每日资讯近期AI算力动态汇总01小米开源OmniVoice:AI语音迈向“全语种统一大模型”新时代小米公司AI实验室正式推出并开源了多语言语音克隆系统OmniVoice,据称支持超过600种语言及方言,能在低资源小语种环境下达成高水准语音合成。不同于传统TTS系统所需的多模型、多阶段拼接方式,OmniVoice利用单一的Transformer架构,致力于通过一个统一模型实现文本到语音的直接生成。(图片来源:IT之家)技术突破的核心在于“利用小模型架构实现大规模语种泛化”。OmniVoice不

2026-05-08 20:00:44  |  5 阅读

5月8日AI快讯:OpenAI推新语音模型,豆包开启付费,国标落地

2026年5月8日,AI领域消息量爆表——OpenAI同时发布三款语音模型、自研芯片合作遭遇180亿融资困境、马斯克的法律纠纷曝光AI安全漏洞;国内方面,工信部等三部门联合发布AI终端国家标准、豆包在3.45亿月活用户基础上引入分层付费机制、AMD也展示了其最新产品。以下为您盘点今日全球AI领域的重大动态。5月8日,OpenAI宣布升级Realtime API,并同步发布三款新的语音智能模型:OpenAI表示:GPT-Realtime-2是目前最先进的语音模型(

2026-05-08 16:00:50  |  6 阅读