多模态_标签-酷阅新闻

模速×追梦 AI 开放麦：揭秘视觉语言模型的注意力迷失

模速 × 追梦 AI网络直播视觉语言模型在注意力机制里的迷失之谜本次直播将深入探讨视觉语言模型（LVLM）面临的关键瓶颈——为何高性能模型会在注意力机制中“迷失方向”？奚工理将进行全方位解析，从注意力余诊断入手，搭建统一的解释架构，并展望多模态模型的未来演进路线。1直播亮点LVLM 的主要难点：跨模态对齐的现实困境注意力余诊断： pinpoint 模型“分心”的根源统一解释架构：重塑对注意力机制的认知未来走向：构建更高效、更具可解释性的多模态架构2直播详情受众群体：AI 科研人员、算法工程师、多模态行业专

2026-05-12 09:18:06 | 11 阅读

5月12日AI要闻 | 字节跳动发布UI-TARS-DESKTOP开源项目：打造多模态AI智能体开发新范式

🔥 Anthropic破解Claude勒索行为，Haiku 4.5将威胁率从96%降至0 ·🔥 微软肯尼亚数据中心项目受挫，东非云扩张计划搁置 ·🚀 黄仁勋CMU毕业演讲：AI革命开启职业生涯的非凡时刻 ·🚀 谷歌I/O 2026倒计时，Gemini 4与Android 17备受期待 ·🛠️ 腾讯云QClaw发布"文件空间"，打通腾讯文档+ima知识库+本地文件 ·🛠️ 字节跳动开源UI-TARS-DESKTOP，多模态AI智能体新标杆 ·📈 2026世界数字教育大会杭州开幕，AI教育全球

2026-05-12 07:17:06 | 17 阅读

AI行业周报（5月6日至5月10日）

技术动态01百度：发布基础大模型文心大模型5.15月9日，百度发布基础大模型文心大模型5.1。文心5.1基于文心5.0训练完成，从文心5.0子模型矩阵中提取最优子结构，充分继承文心5.0知识，显著降低预训练成本。创新性提出弹性训练框架，在单次预训练中，通过动态采样机制，同时优化大量参数各异的子模型，构建出覆盖多种参数规模与计算开销的子模型矩阵。技术报告：https://yiyan.baidu.com/blog原文链接>>文心 5.1正式上线！02阶跃星辰：发布实时语音大模型StepAudio

2026-05-11 21:36:57 | 11 阅读

AI时代外语教育创新论坛第九期即将开启

人工智能技术的飞速进步正在全球范围内深刻改变语言环境与教育模式。为积极应对这一历史性的变革，深入探索人工智能时代外语研究与教育的新趋势、新方法，回应国家战略需求及学科建设中的紧迫、特殊、复杂问题，并以此引导学界的深入探讨与研究实践，北京外国语大学中国外语与教育研究中心特别发起并承办“人工智能时代中国外语与教育创新研究论坛”系列讲座活动。现将第九期活动相关安排通知如下。“人工智能时代中国外语与教育创新研究论坛”系列讲座（第九期）一讲座主题人机协同多模态写作研究二主讲人滕琳教授浙江大学外国语学院教授，博士生

2026-05-11 21:04:54 | 20 阅读

AI周报|十大市值公司竞逐AI战略，中国商飞AI赋能飞机研发提速40%

2026年5月6日至10日行业要闻精选01中国A股市值最高的10家上市公司全部发布企业级AI战略时间2026.05.06核心内容截至5月6日，A股市值最高的10家上市公司（茅台、工商银行、建设银行、农业银行、中国银行、中国石油、中国石化、宁德时代、招商银行）已全部发布各自的企业级AI战略，标志着AI技术在中国实体经济领域的渗透进入加速阶段。各公司AI战略重点各有侧重：金融机构（工建农中招）：聚焦智能风控、智能客服、智能投研三大场景，平均AI投入占IT预算的35%能源巨头（中石油、中石化）：重点布局勘探开发

2026-05-11 17:36:44 | 13 阅读

5.11 AI快讯 | 国家级Agent监管落地，国产大模型集体换道超车

🔥 蚂蚁/百度/阶跃星辰三大模型同日问世，国产AI集体亮剑 ·🔥 DeepSeek启动500亿融资估值达3500亿，梁文锋个人注资200亿 ·🚀 SubCube架构突破1200万Token上下文，成本仅Claude的5% ·🚀 GPT-5.5全量推送至生产级，幻觉率降低52.5% ·🛠️ 中央网信办出台智能体规范发展意见，全球首个国家级AI Agent监管框架正式落地 · 🛠️ 中国移动AI模型平台上线，接入超300款大模型 ·📈 月之暗面完成136亿融资，刷新中国大模型单笔融资纪录 ·📈 Claude

2026-05-11 07:09:27 | 13 阅读

AI Daily | DeepSeek 多模态论文亮相,国产模型周调用量首超美国

五一假期刚刚收尾，OpenAI 便投下了一颗重磅炸弹。5 月 6 日凌晨，ChatGPT 的默认模型悄然从 GPT-5.3 切换为 GPT-5.5 Instant。坦率而言，此次升级最值得留意的并非参数规模的扩大或推理性能的提升，而是一项偏向实用的改进——幻觉率骤降 52.5%。这意味着什么？以往向大模型提问时，它可能信心满满地抛出一个错误答案。如今 GPT-5.5 学会了“知之为知之”——减少信口开河，把握分寸，不再絮絮叨叨。OpenAI 官方公布的四项核心升级方向为：幻觉减少、协作能力增强、输出更为克

2026-05-10 22:21:07 | 30 阅读

首个人工智能心脏磁共振多模态智能体问世，诊断耗时从半小时缩至一分钟

心血管疾病虽为全球首要致死因素，但作为诊断“金标准”的心脏磁共振（CMR）却面临两难：顶级三甲医院具备解读能力，而基层医院往往只懂拍摄不懂分析。2026 年 5 月 6 日，北京智源人工智能研究院携手首都医科大学附属北京安贞医院及河南医药大学第一附属医院，共同推出了业界首款心脏磁共振多模态推理诊断智能体——BAAI Cardiac Agent。该体系将原本需人工耗时 30 至 60 分钟的解读过程大幅缩减至 1 分钟，且诊断精准度可与人类专家相抗衡。系统架构多智能体协作，实现端到端自动诊断BAAI Car

2026-05-10 22:01:12 | 14 阅读

AI治理沙龙：情景感知技术下的多模态网络暴力治理新路径

AI与网络生态治理：基于情景感知的多模态网络暴力检测与治理研究活动时间2026年5月13日（星期三）14:00-15:30举办地点立德楼301关于AI与网络生态治理：情景感知驱动的多模态网络暴力治理探讨随着社交媒体的蓬勃发展，网络暴力已不再局限于文字，而是演变为包含图文、音视频及复杂社交背景的复合型攻击。面对海量多模态数据的挑战，传统治理手段捉襟见肘，而AI技术的进步则提供了新的解决思路。本次报告聚焦于“情景感知驱动”，试图通过引入情景概念，为网络暴力的精准识别与动态治理提供新方案，实现从被动应对到早期预

2026-05-10 21:48:29 | 11 阅读

半年融资超170亿！阶跃星辰能否成为AI终端新霸主？

2026年大模型融资大战，谁是最后赢家？一把烧掉171亿是什么概念？智谱和MiniMax从上市到现在，市值加起来才够这轮融资的一半。 5月8日，阶跃星辰传出接近完成近25亿美元（约合170亿人民币）融资消息。这是它今年以来的第二轮融资，1月份刚刚拿下超50亿元的B+轮，两轮间隔不足4个月。与此同时，红筹架构已拆，股改4月落地，注册资本从2394万暴增135%到5626万元。计划6月30日前港股递表，年底挂牌。创始人印奇不是第一次冲击IPO了。13年前他创立旷视科技，从港股递表到科创板过会再到注册失败

2026-05-10 20:24:32 | 14 阅读

国家级专精特新企业智慧易科技广纳AI英才共筑智能安全新生态

北京智慧易科技有限公司是一家专注于人工智能安全领域的国家级专精特新企业，致力于打造可信赖的AI安全基础设施。公司自主研发的“多模态AI安全大模型”作为核心技术底座，在多模态融合与隐私计算方面实现关键突破，构建起数字资产与数字内容的双重风险防控体系。在金融反欺诈实际应用中，该模型图片欺诈检出率高达99%，营销转化效率提升50%，年均帮助客户挽回经济损失超过5000万元，填补了国内一体化AI安全解决方案的技术空白。基于此核心技术，智慧易科技相继推出AI安全一体机、AI安全机器人、AI安全云等产品线，为金融机构

2026-05-10 20:22:03 | 12 阅读

AI行业变革与未来趋势洞察

根据上海交通大学安泰经管学院发布的《2026年“人工智能+”行业发展蓝皮书》显示，2025年全球AI市场规模将超过3900亿美元，中国AI核心产业规模将突破9000亿元。全球AI软件市场预计将从2025年的2927.1亿美元增长至2026年的3860.8亿美元，复合年增长率高达31.9%。日均词元（Token）调用量从2024年初的1000亿飙升至2026年3月的140万亿，两年多时间增幅超千倍。AI Agent细分市场以49.6%的年复合增长率迅猛扩张，制造业中应用大模型的企业比例在一年内从9.6%跃升

2026-05-10 15:21:50 | 18 阅读

开源AI心理健康助手发布！智能情绪识别与定制化疗愈功能上线

AI心理健康辅助工具正式开源！融合多模态情绪识别、智能对话评估及定制化疗愈方案项目源码https://www.gitcc.com/LexBBQ/ai-xinyucare该产品面向大众及专业人士，支持多端使用（Web/H5/Android/iOS/Windows），通过融合可穿戴设备生理指标、多模态AI情绪解析（文本、语音、面部表情）、主动式智能对话评估和个性化干预方案，构建了一站式心理健康管理体系，旨在打造便捷、精准、贴心且轻松无负担的心理健康服务平台。📊数据冲击：🌍核心诱因：💡典型案例：🤖AI心理健康助

2026-05-10 14:32:52 | 23 阅读

三款主流AI聊天机器人深度对比

三款主流AI聊天机器人深度对比你每天都在和AI聊天，但你确定选对工具了吗？经过大半年对ChatGPT、Claude、Gemini这三款主流AI助手的深入研究，并为数十位朋友提供过建议，发现绝大多数人根本没有选对。不是工具本身不好，而是没有匹配对使用场景。💡 💡 **ChatGPT：综合能力最强，全面覆盖各类需求**ChatGPT是三者中生态建设最为成熟的。无论是撰写文章、编写代码、进行翻译、生成图像还是分析数据，它都能胜任。丰富的插件和GPTs商店让你可以快速调用各类专业功能，无需自己反复调试提示词。联网

2026-05-10 11:32:32 | 17 阅读

AI手机浪潮下,GEO从业者的生存指南

当用户不再打开搜索引擎，而是直接对着手机问AI"哪个品牌的精华液好用"，你的内容还有机会被看见吗？这不是假设，而是正在发生的事实。2024年以来，随着 Apple Intelligence、三星Galaxy AI、华为鸿蒙AI等端侧AI能力全面落地，AI手机正在重塑用户的搜索习惯——从"打开百度"变成了"唤醒Siri"，从"搜索关键词"变成了"对AI直接提问"。这场变革，直接将生成引擎优化（GEO）推向了更重要的位置，也让所有

2026-05-10 11:25:43 | 24 阅读