研究人员推出了一种新颖的混合专家(MoE)路由方法 STAR,该方法将路由视为一个结构感知的子空间学习问题。与使用有限线性投影的传统 MoE 方法不同,STAR 包含一个不断演变的principal子空间来跟踪主导输入结构,从而提高路由稳定性和专家专业化。该方法在语言和视觉任务上都表现出改进的性能,并且通过可选的测试时子空间更新具有进一步提高鲁棒性的潜力。 AI
影响 提高了 MoE 模型中的路由稳定性和性能,有望带来更高效、更强大的 AI 系统。
排序理由 这是一篇详细介绍改进 MoE 路由新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →