English(EN) Adaptive Mixture of Experts Gate (AMG) [R]

将自适应MoE门控后验应用于Qwen3.6-35B，效果有限

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-29 15:54

研究人员为Qwen3.6-35B模型开发了一种后验自适应专家混合（MoE）门控方法，旨在提高效率而无需重新训练。他们的方法作为llama.cpp的推理时补丁实现，对专家路由权重应用累积概率阈值。在Penn Treebank数据集上的实证结果表明，这种后验方法虽然减少了活动专家的数量，但并未显著提高困惑度，与基线固定k模型相比甚至可能略微降低性能。主要贡献在于为生产推理引擎提供了实际实现，并实证证明了将自适应门控应用于预训练的、固定k模型的局限性。 AI

影响这项研究突显了将自适应MoE门控后验应用于预训练模型的挑战，表明显著的收益可能需要微调或从头开始训练。

排序理由该集群描述了一项实证研究和一种应用于现有模型的新技术的实现，符合研究类别。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/MachineLearning 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/MachineLearning TIER_1 English(EN) · /u/cjhudlin · 2026-06-29 15:54

Adaptive Mixture of Experts Gate (AMG) [R]

<div class="md">[Project] Post-hoc Adaptive MoE Gating on Qwen3.6-35B — empirical benchmarking of an open research gap Adaptive MoE routing — selecting a variable number of experts per token based on routing confidence — has been studied …

报道来源 [1]

Adaptive Mixture of Experts Gate (AMG) [R]

相关实体

相关话题