研究人员开发了一个名为 Zero-Expert Self-Distillation Adaptation (ZEDA) 的新框架,以提高 Mixture-of-Experts (MoE) 语言模型的效率。ZEDA 允许经过后训练的静态 MoE 模型在推理过程中动态地跳过超过一半的专家,而准确性损失极小。该方法在 Qwen3-30B-A3B 和 GLM-4.7-Flash 上进行了测试,显示计算量显著减少,推理速度约提高了 1.20 倍。 AI
影响 降低了 MoE 模型的推理成本,可能加速部署和采用。
排序理由 学术论文,详细介绍了一种提高模型效率的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
- GLM-4.7-Flash
- Mixture-of-Experts (MoE)
- Qwen3-30B-A3B
- Xingtai Lv
- Zero-Expert Self-Distillation Adaptation (ZEDA)
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →