混合专家_标签-酷阅新闻

效率跃升 30%！华为发布昇腾亲和大模型，月底全面开源

快科技 6 月 12 日讯，在华为开发者大会（HDC 2026）的主题演讲环节，华为常务董事兼终端 BG 董事长余承东正式揭晓了昇腾亲和大模型，该方案实现了从算法架构至训练推理全链路的覆盖。作为行业首款采用 DSA+SWA 独立分层混合架构的模型，昇腾亲和大模型专门针对 MoE（混合专家）模型中的专家路由难题实施了深度优化。基于昇腾原生训练技术，性能实现双重飞跃：训练效率提高 30%，512K 长序列训练吞吐量增长 50%，且训推一致性超过 99%，有力保障了训练结果的高精度复现。借助 mHC、Mu

2026-06-12 21:57:10 | 19 阅读

AI 耗电惊人，破局之道何在？

给孩子的 AI 常识上期我们算过一笔账：2024 年全球数据中心耗电量达 415 太瓦时，等同英国全年用电；预计 2030 年将翻倍至 945 太瓦时，堪比日本全年总量。ChatGPT 单次回答的能耗竟是 Google 搜索的十倍。AI 是“电老虎”，这点已成共识。但关键问题尚待解答：如此高昂的电费，能否降下来？答案是：各界正在探索，且部分方案已初见成效。路线一最直观的思路——并非增加发电，而是让 AI 更省电。还记得“什么是大模型”文中提到的 DeepSeek 吗？其核心创新在于“混合专家模型”——总参

2026-06-07 02:38:34 | 36 阅读

AI新突破：仅需12.5%专家模块性能几乎无损

核心看点 · 艾伦人工智能研究院及加州大学伯克利分校联合推出了EMO模块化语言模型。其内部组件专注于医学、政治等特定垂直领域（而非局限于语法规则），同时确保了强大的整体表现。· 该系统在训练阶段采用了固定的文档边界机制，促使各个模块专注于培养不同内容领域的专业知识，而非仅仅模仿纯粹的结构性语言模式。· 当模块缩减至四分之一规模时，EMO的性能仅下滑约1%，这极大降低了存储开销，并能精准调控模型所覆盖的知识范畴。艾伦人工智能研究院与加州大学伯克利分校的科研团队打造了EMO——一种在预训练阶段便形成了模块化架

2026-05-16 18:34:56 | 17 阅读

arXiv AI论文精选：2026-05-09期

1. AI助手：借助代理AI推动数学研究发展原文标题: AI Co-Mathematician: Accelerating Mathematicians with Agentic AI 发布时间: 2026-05-07 论文链接:http://arxiv.org/abs/2605.06651v1 本文展示了AI数学合作家——这是一款专为数学家打造的交互式平台，旨在辅助他们运用AI智能体开展开放式研究探索。该系统针对数学研究的探索与迭代特性进行了专门优化：在构思激发期提供灵感辅助；通过智能文献检索锁定核心

2026-05-10 07:23:03 | 19 阅读

大模型“疯狂星期五”：两种路线的较量

2026 年 4 月 24 日凌晨，OpenAI 正式发布 GPT-5.5。短短数小时后，杭州的深度求索也同步放出了 DeepSeek V4。同一时间，全球顶尖两款大模型正面“交手”。一边走闭源高端路线，API 定价上调；另一边选择直接开源，价格仅为对手的约七分之一。媒体因此将这一天称作 AI 的"疯狂星期五"。但如果你只盯着"中美对决"的表面热度，可能会忽略更关键的信号。OpenAI 的选择：更贵，但更强的智能GPT-5.5 并非简单的小幅升级，而是以全新方式训练出来的基

2026-04-28 21:08:01 | 9 阅读

腾讯混元Hy3 preview正式发布并开源

新浪科技讯 4月23日下午消息，腾讯混元Hy3 preview语言模型正式发布并对外开源。据官方介绍，这是一款融合快慢思考的混合专家架构模型，总参数量达295B，激活参数量21B，最大上下文处理能力支持256K。这是混元完成重建后的首个训练成果，也是混元历史上智能化程度最高的版本，在复杂逻辑推理、指令准确执行、上下文学习、代码生成、智能体协作等核心能力及推理效率方面都取得了显著进步。早在2026年2月，腾讯混元就着手重建预训练和强化学习的基础架构，并确立了模型实用化的三个核心原则： 1、能力体系化：拒绝

2026-04-23 17:48:37 | 10 阅读

样条函数赋能物理信息AI求解动态边界问题

《Digital Engineering》英文国际期刊（ISSN：2950-550X）是全球首个专注于数字工程的跨学科领域学术期刊，由国际著名学术期刊出版商爱思唯尔Elsevier 出版，主要发表高质量的原创研究论文、综述、简报和评论，旨在分享各领域关于数字化研究和应用的最新成果。期刊目前已被EI及Scopus收录。论文“Physics-informed artificial intelligence with splines for modeling advection–diffusion–reacti

2026-03-29 22:13:08 | 13 阅读