一篇新的研究论文调查了可解释性方法在专家混合(MoE)模型中的有效性。研究发现,用于预测哪些专家可以被移除而不影响性能的常用指标,与因果专家重要性并不可靠地相关。在三种不同的MoE架构中,观察性数据未能预测专家的可替代性,这表明当前的剪枝技术可能由于冗余而不是精确识别关键组件而成功。 AI
影响 挑战了MoE模型可解释性和剪枝的当前假设,可能导致更稳健的方法。
排序理由 该集群包含一篇详细介绍新研究发现的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →