新方法允许 MoE 模型跳过超过一半的专家

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-09 04:00

研究人员开发了一个名为 Zero-Expert Self-Distillation Adaptation (ZEDA) 的新框架，以提高 Mixture-of-Experts (MoE) 语言模型的效率。ZEDA 允许经过后训练的静态 MoE 模型在推理过程中动态地跳过超过一半的专家，而准确性损失极小。该方法在 Qwen3-30B-A3B 和 GLM-4.7-Flash 上进行了测试，显示计算量显著减少，推理速度约提高了 1.20 倍。 AI

影响降低了 MoE 模型的推理成本，可能加速部署和采用。

排序理由学术论文，详细介绍了一种提高模型效率的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Xingtai Lv, Li Sheng, Kaiyan Zhang, Yichen You, Siyan Gao, Xueheng Luo, Yuxin Zuo, Yuchen Fan, Junlin Yang, Ganqu Cui, Bingning Wang, Fan Yang, Youbang Sun, Ning Ding, Bowen Zhou · 2026-06-09 04:00

训练后MoE可通过自蒸馏跳过一半专家

arXiv:2605.18643v2 Announce Type: replace-cross Abstract: Mixture-of-Experts (MoE) scales language models efficiently through sparse expert activation, and its dynamic variant further reduces computation by adjusting the activated experts in an input-dependent manner. Existing dy…

报道来源 [1]

训练后MoE可通过自蒸馏跳过一半专家

相关实体

相关话题