研究人员发现,在合并专家混合(MoE)大型语言模型时存在一个重大问题,称为“路由中断”。当合并过程破坏 MoE 路由器的能力,使其无法将 token 正确导向相应的专家模型时,就会发生这种情况,从而导致性能下降。为了解决这个问题,他们提出了 Hessian-Aware Router Calibration (HARC),这是一种新颖的无训练方法,利用二阶曲率信息来重新校准路由器。实验表明,HARC 在数学推理和代码生成等任务上能有效提高性能。 AI
影响 这项研究提供了一种提高大型语言模型(特别是 MoE 架构)合并效率和性能的方法,有可能减少对大量重新训练的需求。
排序理由 该集群包含一篇学术论文,详细介绍了一种改进模型合并技术的新方法。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →