AI日报速览:语音输入上新,全模态与AI搜索升级
1.千问PC端上线AI语音输入功能,用户可通过快捷键在各类桌面应用中直接使用,具备出色的语义理解能力,能把口语内容整理成结构化信息,同时还能用语音指令完成多种办公操作,显著提升日常效率。
亮点提要:
🗣️ 千问语音输入可对口语内容进行去语气词、纠错与格式化整理,并能结合上下文进行更贴合的回应。
📝 用户能够用语音指令直接在多种应用里调用千问,实现创作、问答、翻译等常见任务。
📧 千问还能自动生成邮件回复,覆盖钉钉、微信或邮件等办公场景,帮助用户更快处理沟通。
2.字节跳动发布全模态大模型Doubao-Seed-2.0-lite,AI能听会看还能直接“上手”干活
字节跳动旗下火山引擎推出Doubao-Seed-2.0-lite,实现视频、图像、音频与文本的统一理解。模型在视觉能力和推理表现上较为突出,尤其在物理、医疗等需要复杂推断的测试中,相比此前的Pro版本展现出更强的性能。
亮点提要:
✅ 对视频、图像、音频与文本进行原生统一理解
🧠 在物理、医疗等高阶学科复杂推理测试中超越Pro版本
🖱️ 首次把GUI理解与执行打通,可完成点击、拖拽、输入等实际操作
3.腾讯发布OpenSearch-VL:开源多模态深度搜索 agent 的“全家桶”方案
腾讯混元联合多所高校发布OpenSearch-VL,这是一个开源的多模态深度搜索智能体方案,借助强化学习来增强模型能力。文中重点介绍了其独特的数据生产流程、完善的工具体系以及故障感知相关方法,实验结果表现亮眼,并已规划进行全量开源,推动多模态智能体研究向前发展。
亮点提要:
🧠 新的数据生产思路,帮助规避“走捷径”问题
🛠 强大的工具环境:不止是搜索本身
🔄 “故障感知”算法:让模型能从失败案例中迭代学习
详情入口:
🔗 https://arxiv.org/pdf/2605.05185
4.月之暗面申请注册KimiClaw商标 或有硬件大动作?
月之暗面近期递交多项“KimiClaw”商标注册申请,覆盖科学仪器、网站服务与通讯服务等关键类别,显示其在人工智能生态布局上的进一步动作逐渐清晰。公司成立于2023年,由杨植麟创办,聚焦通用人工智能方向,并已获得20亿美元融资,估值或将向200亿美元迈进。
亮点提要:
🧠 月之暗面申请注册“KimiClaw”商标,涉及科学仪器、网站服务与通讯服务等领域
🚀 公司起步较短,但已拿到20亿美元融资,估值有望进一步上调至200亿美元以上
🔍 商标布局的背后,或透露出从软件算法向硬件设备或更强物理交互产品拓展的意图
5.Mininglamp 开源 Cider+Mano-P,让你的 Mac 变身私有 AI 工作站
Mininglamp 公开开源了 Cider 和 Mano-P 两个本地AI项目,分别面向Mac端的侧侧推理加速与GUI智能体操作需求,为用户打造一套更完整的本地AI工作流,同时兼顾效率与隐私安全。
亮点提要:
🧠 Cider 针对 M 系列芯片做了性能优化,提升 LLM/VLM 推理速度与使用效率
🖱️ Mano-P 支持纯视觉方式的 GUI 操作,能够覆盖更复杂的桌面任务自动化流程
🔒 两个项目协同,帮助搭建本地私有 AI 基础设施,降低隐私风险
6.OpenAI携手硬件巨头发布MRC协议,欲终结GPU闲置浪费
OpenAI联合AMD、英特尔、微软以及英伟达等企业推出全新开放网络协议 MRC,目标在于打通超大规模AI集群的效率瓶颈,增强数据传输的稳定性,同时降低GPU闲置带来的浪费,促使算力集群朝更高效、更加绿色的方向演进。
亮点提要:
🧠 MRC协议聚焦优化大型AI训练集群的运行表现,并提升数据传输稳定度
⚡ 通过多路径连接策略减少GPU空转,提升整体计算利用率
🌐 OpenAI联合多家行业巨头发布MRC协议,推动超大规模算力集群进入更高效的绿色新阶段
7.谷歌更新AI搜索功能:集成Reddit与社交媒体一手观点
谷歌对生成式AI搜索体验进行了较大幅度的升级,通过整合社交平台、论坛内容以及新闻订阅等一手信息来源,提高用户更快获取可信资讯的效率。此次更新增加了“观点预览”能力,把Reddit与各类网络论坛的真实在线讨论与用户提问直接关联;同时在AI回复里嵌入专家建议,并补充创作者名称与社区昵称,以增强信息来源的可信度。
亮点提要:
🧠 引入“观点预览”:将Reddit与网络论坛的真实对话与用户查询形成直连
📊 在AI回复中嵌入专家建议,并标注创作者名称与社区昵称以提高信息可靠性
🌐 增加延伸链接与推荐主题,引导用户从单次搜索走向更深入的研究
8.xAI 发布 Grok Imagine 质量模式 API:视觉生成迈入写实新纪元
xAI正式上线 Grok Imagine API 的“质量模式”,在画面写实感、文字渲染精度以及创意控制能力方面带来关键进展,意味着图像生成正在迈向更接近真实世界的阶段。
亮点提要:
🖼️ 进一步增强图像细节表现,更好呈现自然皮肤纹理、毛孔细节与复杂光影变化
✍️ 改善图像生成在复杂文本输入下可能出现的字符错误与排版混乱问题
🚀 提升视频生成能力,帮助品牌方更高效产出社交媒体素材、产品展示短片以及各类商业广告内容
↓点击阅读原文,进入AIbase官网。