语音模_标签-酷阅新闻

AI边界在哪？从影视飓风工作流看用法

影视飓风最近更新了一期内容，重点讲的是他们团队如何在日常流程里运用 AI。看完你会明显感到：最值得借鉴的不是“用不用AI”，而是他们把 AI 的边界划得很清晰。哪些任务适合交给 AI，哪些必须谨慎甚至不使用，他们都拿捏得相当到位。在选题阶段，他们会借助 OpenClaw 来完成素材搜集与信息梳理，因此效率确实提升了不少。一个选题往往要查很多资料：几十个网页、文档和视频里分散着关键信息。过去需要人工一条条打开、复制、归纳总结；现在 AI 能在几分钟内先把材料整理成初稿。但真正决定拍什么、内容往哪个方向走，最

2026-04-29 12:14:11 | 10 阅读

AI日报：特斯拉接入豆包，美团试水万亿大模型

哈喽大家好，我是玖玖学长～本期给大家汇总最新一轮 AI 行业日报，内容覆盖大模型发布、车载智能升级、语音技术突破、数字人开源、电商风控 AI 等多个热点，帮助你快速看懂 AI 圈重点进展！DeepSeek-V4 预览版已正式上线并开源，率先把 1M 超长上下文能力做成标准配置。依托结构层面的创新与 Agent 生态适配，模型的推理表现和落地效率都得到了明显提升。该模型同时推出 Pro 与 Flash 两个版本，其中 Pro 版性能已经逼近全球头部闭源模型，Flash 版则强调更高性价比，可适配不同使用需求

2026-04-27 14:30:10 | 48 阅读

4月10日AI动态汇总

智谱AI正式推出新一代开源旗舰模型GLM-5.1，采用744B参数MoE架构（单次激活40B），并以MIT协议全面开源。该模型在SWE-Bench Pro基准中取得58.4%的成绩，超过GPT-5.4和Claude Opus 4.6，成为首个在核心编程能力上领先主流闭源旗舰的开源模型。GLM-5.1还支持长达8小时的持续自主运行，一周内刷新105项SOTA成绩，并可在无需人工干预的情况下交付完整Linux桌面系统。2026-04-08 · 智谱AI/界面新闻/少数派4月10日，由中国人工智能学会主办的第三

2026-04-10 20:03:04 | 11 阅读

AI快讯：公众号整治洗稿，字节上线实时语音，腾讯云上调价格

2026 年 4 月 10 日 | 作者：阿紫闲谈坦白说，今天的 AI 行业有种"冷暖交织"的味道——一边是大厂密集推出新产品，另一边则是平台开始整顿那些过度依赖 AI 的"省事派"。实话讲，看完今天这一圈资讯，我最强烈的感受只有三个字：风向变了。先说一个重磅消息。微信公众平台近日公布新规，明确叫停"非真人自动化创作行为"。什么意思？也就是不能让 AI 代替真人写稿、批量群发内容。已有不少创作者表示，后台文章因被系统认定为自动生成，结果直接遭到批量清除。新规

2026-04-10 07:25:26 | 39 阅读

字节Seeduplex全双工语音模型发布，豆包通话实现双向实时交互

字节于今日正式揭晓其原生全双工语音大模型Seeduplex。相较此前的半双工豆包端到端语音方案，Seeduplex采用“同步听说”的创新架构，使得交互的流畅性与真实感获得显著增强。官方表示，Seeduplex主要达成了两大技术突破：多项综合测评表明，Seeduplex在对话流畅性与节奏把控方面，明显超越传统半双工模式及市面主流应用的语音通话能力；在停顿判断精准度上，较半双工方案提高8%，呈现出更贴近真人对话的时机把握能力。同时，大规模A/B测试结果揭示，相较于先前上线的半双工版本，Seeduplex使用户

2026-04-09 23:33:48 | 14 阅读

AI资讯速览：视频生成、智能体与大模型迎来新进展

🔔1、超越 Seedance 2.0！AI 视频领域又现神秘黑马 Happy Horse💡核心要点：在AI视频生成赛道中，新模型Happy Horse整体表现已超过Seedance 2.0，在文生视频的画面稳定性、细节呈现以及动作流畅度方面更具优势，还可结合音频生成实现多模态创作。其背景尚未明朗，外界猜测或出自亚洲某AI实验室，被认为有望成为Seedance的重要竞争者，并在全球AI社区引发广泛讨论，成为行业升级的重要信号。🔔2、15秒1080P音画同步！爱诗科技 PixVerse C1 亮相：影视级大模

2026-04-09 10:14:48 | 15 阅读

微软AI三件套解析

根据最新的行业报道，**“微软 AI 自研模型三件套”**通常指的是微软在 2024 年底至 2025 年初发布的三款自主研发的核心模型，分别覆盖了 AI 技术的三个关键领域：**语音（Voice）**、**文本（Large Language Model, LLM）** 和 **图像生成（Image Generation）**。以下是这三款模型的详细介绍： ### 1. MAI-Voice-1（语音模型） **核心功能**：生成高质量、逼真的 AI 语音。 **主要特点**： * **高效生成**：据称

2026-04-03 11:05:02 | 12 阅读

谷歌发布Gemini 3.1 Flash Live 加码实时AI交互

Alphabet（谷歌(280.74, -8.85, -3.06%)母公司）发布了Gemini 3.1 Flash Live，这是一款专为实时音视频应用打造的新型人工智能模型。此举标志着多模态AI领域的竞争日益激烈。谷歌称，这是其有史以来最出色的音频与语音系统。该模型旨在为消费级和企业级产品提供更自然的对话体验和更快速的响应。此次发布面向开发者、企业以及希望获得更流畅语音优先交互体验的普通用户。谷歌表示，Gemini 3.1 Flash Live比前代模型速度更快，并能将对话上下文记忆时长延长一倍。这

2026-03-27 21:07:54 | 11 阅读