AI新突破：仅需12.5%专家模块性能几乎无损

发布时间：2026-05-16 18:34阅读：17

核心看点 · 艾伦人工智能研究院及加州大学伯克利分校联合推出了EMO模块化语言模型。其内部组件专注于医学、政治等特定垂直领域（而非局限于语法规则），同时确保了强大的整体表现。

· 该系统在训练阶段采用了固定的文档边界机制，促使各个模块专注于培养不同内容领域的专业知识，而非仅仅模仿纯粹的结构性语言模式。

· 当模块缩减至四分之一规模时，EMO的性能仅下滑约1%，这极大降低了存储开销，并能精准调控模型所覆盖的知识范畴。艾伦人工智能研究院与加州大学伯克利分校的科研团队打造了EMO——一种在预训练阶段便形成了模块化架构的混合专家模型。该模型能够大幅精简专家数量，且几乎不损失性能。

混合专家架构目前已成为DeepSeek-V4或Qwen3.5等语言模型的标配。它们仅针对每个词元激活少量专家，从而允许模型扩展至数千亿参数而无需激增计算成本。然而，完整的模型仍需驻留内存，因为任务中的不同词元会调用不同的专家。若仅需处理数学或编程任务，无法仅加载模型的一个切片便解决问题。

据论文所述，这是由于标准MoE中的专家倾向于捕捉浅层语言模式。它们对介词、标点符号或冠词等做出反应，而非针对数学或代码等高级领域。这导致难以从中提取出有价值的子集。

EMO通过一个巧妙手段攻克了这一难题。作者并未像BTX或Ai2的FlexOlmo等项目那样预先将训练数据划分为数学、生物等固定领域，而是采用了文档边界策略。文档内的词元通常同属一个领域。EMO强制规定一个文档内的所有词元需从共享的专家池中选择激活专家。模型通过计算整个文档所有词元的路由偏好平均值，并筛选出出现频率最高的专家，来确立该池子包含的专家成员。

EMO将模块化训练置于核心地位。你可以针对特定领域自由选取一组专家子集，且不会对完整模型的性能造成损害。

← 上一篇：【AI观察】当AI搜索结果被人工干预,我们该如何辨别真伪? 下一篇：AI公关新标尺：双世界下的品牌信任评估 →