研究人员推出了一种名为Expert-Sample的新型无训练方法,旨在增强细粒度混合专家(MoE)模型的性能。该技术通过分析MoE层的路由分数来解决测试时扩展的性能与多样性和稳定性之间的权衡问题。Expert-Sample利用了MoE路由器表现出高置信度“确定头”和低置信度“不确定尾”的观察结果,选择性地将随机性注入后者,以提高生成多样性而不损害输出稳定性。该方法在Qwen3-30B-A3B-Instruct等模型上的评估显示,在各种推理和编码任务上,准确性和pass@n指标均得到了一致的改进。 AI
影响 引入了一种无训练方法,可提高MoE模型在推理和编码任务上的多样性和准确性。
排序理由 这是一篇研究论文,详细介绍了一种改进MoE模型性能的新方法。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →