研究人员为Qwen3.6-35B模型开发了一种后验自适应专家混合(MoE)门控方法,旨在提高效率而无需重新训练。他们的方法作为llama.cpp的推理时补丁实现,对专家路由权重应用累积概率阈值。在Penn Treebank数据集上的实证结果表明,这种后验方法虽然减少了活动专家的数量,但并未显著提高困惑度,与基线固定k模型相比甚至可能略微降低性能。主要贡献在于为生产推理引擎提供了实际实现,并实证证明了将自适应门控应用于预训练的、固定k模型的局限性。 AI
影响 这项研究突显了将自适应MoE门控后验应用于预训练模型的挑战,表明显著的收益可能需要微调或从头开始训练。
排序理由 该集群描述了一项实证研究和一种应用于现有模型的新技术的实现,符合研究类别。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →