AI新突破:仅需12.5%专家模块性能几乎无损
核心看点 · 艾伦人工智能研究院及加州大学伯克利分校联合推出了EMO模块化语言模型。其内部组件专注于医学、政治等特定垂直领域(而非局限于语法规则),同时确保了强大的整体表现。
· 该系统在训练阶段采用了固定的文档边界机制,促使各个模块专注于培养不同内容领域的专业知识,而非仅仅模仿纯粹的结构性语言模式。
· 当模块缩减至四分之一规模时,EMO的性能仅下滑约1%,这极大降低了存储开销,并能精准调控模型所覆盖的知识范畴。艾伦人工智能研究院与加州大学伯克利分校的科研团队打造了EMO——一种在预训练阶段便形成了模块化架构的混合专家模型。该模型能够大幅精简专家数量,且几乎不损失性能。
混合专家架构目前已成为DeepSeek-V4或Qwen3.5等语言模型的标配。它们仅针对每个词元激活少量专家,从而允许模型扩展至数千亿参数而无需激增计算成本。然而,完整的模型仍需驻留内存,因为任务中的不同词元会调用不同的专家。若仅需处理数学或编程任务,无法仅加载模型的一个切片便解决问题。
据论文所述,这是由于标准MoE中的专家倾向于捕捉浅层语言模式。它们对介词、标点符号或冠词等做出反应,而非针对数学或代码等高级领域。这导致难以从中提取出有价值的子集。
EMO通过一个巧妙手段攻克了这一难题。作者并未像BTX或Ai2的FlexOlmo等项目那样预先将训练数据划分为数学、生物等固定领域,而是采用了文档边界策略。文档内的词元通常同属一个领域。EMO强制规定一个文档内的所有词元需从共享的专家池中选择激活专家。模型通过计算整个文档所有词元的路由偏好平均值,并筛选出出现频率最高的专家,来确立该池子包含的专家成员。
EMO将模块化训练置于核心地位。你可以针对特定领域自由选取一组专家子集,且不会对完整模型的性能造成损害。