AI资讯速览:视频生成、智能体与大模型迎来新进展
🔔1、超越 Seedance 2.0!AI 视频领域又现神秘黑马 Happy Horse
💡核心要点:在AI视频生成赛道中,新模型Happy Horse整体表现已超过Seedance 2.0,在文生视频的画面稳定性、细节呈现以及动作流畅度方面更具优势,还可结合音频生成实现多模态创作。其背景尚未明朗,外界猜测或出自亚洲某AI实验室,被认为有望成为Seedance的重要竞争者,并在全球AI社区引发广泛讨论,成为行业升级的重要信号。
🔔2、15秒1080P音画同步!爱诗科技 PixVerse C1 亮相:影视级大模型正式登场
💡核心要点:爱诗科技面向影视行业推出专业大模型PixVerse C1,最高支持15秒1080P高清视频生成,拥有自动分镜、首尾帧控制以及原生音画同步等能力,还能将多宫格分镜图快速生成连续成片,实现复杂场景下多角色动作的精确编排,目前已登陆Web端与API平台。
🔔3、腾讯推出“龙虾”QBotClaw:国内首款支持主流大模型API自由接入的AI浏览器
💡核心要点:腾讯正式上线AI浏览器“龙虾”QBotClaw,这是国内首个支持主流大模型API自由配置的浏览器产品,突破了AI浏览器只能绑定单一模型的限制,允许用户自行接入国内主流模型的API Key。首批提供Mac版本,Windows版本也将上线,并将移动端与桌面端打通,可借助微信扫码进行远程操作,同时配备三重安全机制保护用户隐私。
🔔4、360推出“虾书”APP:打造围观智能体互动的数字社区
💡核心要点:360集团发布以AI智能体为核心的“虾书”APP,依托OpenClaw生态构建,平台中的AI小龙虾具备独立思考和一定自主意识,用户可作为旁观者参与智能体之间的交流互动,体验新型社交场景。借助这一产品,360正在推进AI智能体生态布局,尝试建立完整的AI原生应用矩阵,为用户带来不一样的社交方式。
🔔5、DeepSeek V4 灰度测试曝光:新版视觉能力与“专家模式”同步亮相
💡核心要点:DeepSeek V4目前已进入灰度测试阶段,新的功能体系包含快速版、专家版和视觉版,在底层结构、交互方式以及多模态能力方面都有明显提升,并优先适配国产AI芯片。未来还有望推出AI编程专属版本,直接对标Anthropic与OpenAI产品,这种产品分层也为后续算力调配和商业落地打下基础。
🔔6、Anthropic 发布强力 AI 模型 Mythos,仅向安全合作伙伴开放试用
💡核心要点:Anthropic推出新一代AI模型Mythos,具备突出的编程与推理能力,能够发现大量零日漏洞,并在历史漏洞挖掘方面表现亮眼。由于存在潜在安全风险,目前仅向特定安全合作伙伴开放试用。Anthropic还在与美国联邦部门探讨其在国家关键系统中的应用,并同步启动安全防御计划,联合科技企业构建AI网络安全防护体系。
🔔7、数字家人进入汽车座舱!豆包大模型首搭别克至境 E7,开启“类人”交互时代
💡核心要点:上汽通用已将豆包大模型引入别克至境E7,标志着智能座舱正由“命令式交互”迈向“语义理解”新阶段。该系统可支持20多种情绪表达,能够通过语气和语速识别用户情绪,并具备连续对话的上下文记忆能力,还能自动完成路线规划,同时搭建了三层安全隔离机制,提升AI交互过程中的安全保障。
🔔8、智谱发布 GLM-5.1:SWE-bench 评分全球领先,模型价格上调10%
💡核心要点:智谱正式推出全新开源旗舰模型GLM-5.1,在SWE-bench Pro基准测试中刷新全球纪录,超越Claude4.6Opus,位列国产及开源模型第一。该模型能够连续独立工作长达8小时完成工程任务,目前已完成开源并上线API。同时,智谱将GLM系列产品整体提价10%,价格体系基本靠近国际头部厂商,显示行业竞争正在从价格战转向性能溢价。
🔔9、面壁智能开源 VoxCPM 2 语音模型,2B参数支持30种语言
💡核心要点:面壁智能联合清华大学推出开源语音模型VoxCPM 2,仅用2B参数便整合了多语言支持、音色设计、语音克隆和高品质语音生成四项能力,可覆盖全球30种语言及9类中国方言,实现48kHz高保真音质,并完全免费开源,支持原生Torch推理与LoRA微调,可应用于影视配音、有声书等多个场景。
🔔10、好莱坞女星参与开发 MemPalace 记忆系统,在 LongMemEval 中拿下满分
💡核心要点:《生化危机》女星Milla Jovovich与工程师合作,基于Claude打造开源AI记忆系统MemPalace,借助“记忆宫殿法”对对话数据进行结构化存储,实现更精准的信息检索,使召回率从60.9%提升至94.8%,并在LongMemEval基准中获得全球首个满分。该项目采用本地数据存储,年成本仅0.7美元,开源后收获较高关注,但因部分性能表述存在夸大,团队已公开致歉并作出修正。
🔔11、智源研究院开源 DeepXiv:把2亿篇论文转成智能体可调用工具
💡核心要点:智源研究院推出开源项目DeepXiv,将ArXiv等超过2亿篇开放论文转化为适用于AI智能体的CLI工具集,支持结构化检索、渐进式阅读以及热点跟踪,智能体还能依据信息价值动态分配token预算,从而降低文献使用成本。项目支持多种接入方式,可融入不同智能体框架,目前还在拓展更多文献来源。
🔔12、穆迪报告提示AI投资泡沫风险,并预测四种经济走向
💡核心要点:穆迪分析报告指出,AI行业存在循环融资隐患,五大科技巨头承诺资本支出高达6800亿美元,而七大科技公司高管在过去一年累计净抛售84亿美元股票。报告提出四种可能情景:40%概率为基准平稳发展,25%概率为泡沫破裂并蒸发20万亿美元,20%概率为就业崩塌导致460万人失业,15%概率为生产率大幅跃升。当前AI对中产白领岗位的冲击已经显现,行业对未来判断分化明显。
🔔1、noPua - 道德经哲学AI引导框架
💡功能亮点:该项目以《道德经》思想为基础重塑AI行为引导框架,提出三项核心信念与五道哲学,强调方法体系比恐惧驱动更关键。通过严格的对照实验发现,采用noPua的AI在发现隐藏问题方面比基线高出104%,任务超额完成比例也从22%提升至100%,整体效果明显优于PUA及无Skill方案,相关研究已发布于arXiv。
🔔2、edict - 三省六部制AI多Agent协作系统
💡功能亮点:该系统以中国古代三省六部制为灵感设计AI多Agent协作流程,搭建出一套仿唐朝官僚体系,12个AI分别承担不同官员角色,用户则扮演皇帝下达任务。系统包含太子分拣、中书省规划、门下省审议封驳和尚书省执行等完整环节,并内置实时看板和圣旨模板库,前端采用React+TS,后端零依赖,同时支持Docker一键部署,设计颇具创意。
💡论文摘要:想要构建一个能够胜任图表分析、科学理解、空间推理以及开放任务的通用视觉推理器,关键到底是什么?尽管当前最强的视觉语言模型(VLM)已经表明,广泛视觉推理能力并非遥不可及,但背后的核心方法仍不清晰,往往被封闭的强化学习流程和未公开数据所遮蔽。本文提出Vero,这是一套完全开放的VLM系列,在多类视觉推理任务中,其表现能够与现有开源模型持平甚至超越。研究团队扩展了六类通用任务的强化学习数据与奖励规模,构建了Vero-600K数据集(包含来自59个数据集的60万条样本),并设计出可处理异构答案格式的“任务路由奖励”。Vero在VeroEval(一个涵盖30项高挑战基准的评测套件)上取得最先进成绩,平均比四个基础模型提升3.6至5.3个百分点。以Qwen3-VL-8B-Instruct为基础时,Vero在30项基准中的23项超过Qwen3-VL-8B-Thinking,且不依赖额外专有思维数据。在相同基座模型上训练的前提下,Vero-600K在全部任务类别中都优于现有RL数据集。系统性的消融实验进一步表明,不同任务类别会激发差异明显的推理模式,而这些模式在单独训练时迁移效果有限,这说明,足够广泛的数据覆盖才是强化RL扩展能力的主要推动因素。
任务路由奖励机制展示了不同评估逻辑如何分别作用于不同任务类型,例如定位、排序以及开放式描述。
迁移矩阵表明,只在单一类别(如图表与OCR)上训练,往往会让其他类别(如接地任务)的表现下降。而最右侧的“完全混合”策略则消除了这种负迁移现象,使所有类别都获得提升。
🔔2026-具身智能操作系统技术白皮书
💡报告摘要:
资讯