English(EN) When Model Merging Breaks Routing: Training-Free Calibration for MoE

新方法校准 MoE 模型合并以修复路由中断

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-02 09:33

研究人员发现，在合并专家混合（MoE）大型语言模型时存在一个重大问题，称为“路由中断”。当合并过程破坏 MoE 路由器的能力，使其无法将 token 正确导向相应的专家模型时，就会发生这种情况，从而导致性能下降。为了解决这个问题，他们提出了 Hessian-Aware Router Calibration (HARC)，这是一种新颖的无训练方法，利用二阶曲率信息来重新校准路由器。实验表明，HARC 在数学推理和代码生成等任务上能有效提高性能。 AI

影响这项研究提供了一种提高大型语言模型（特别是 MoE 架构）合并效率和性能的方法，有可能减少对大量重新训练的需求。

排序理由该集群包含一篇学术论文，详细介绍了一种改进模型合并技术的新方法。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Canbin Huang, Tianyuan Shi, Xiaojun Quan, Jingang Wang, Jianfei Zhang, Qifan Wang · 2026-06-03 04:00

当模型合并破坏路由时：MoE 的无训练校准

arXiv:2606.03391v1 Announce Type: cross Abstract: Model merging has emerged as a cost-effective approach for consolidating the capabilities of multiple LLMs without retraining. However, existing merging techniques, largely based on linear parameter arithmetic or optimization, str…
arXiv cs.CL TIER_1 English(EN) · Qifan Wang · 2026-06-02 09:33

模型合并破坏路由时：MoE 的无训练校准

Model merging has emerged as a cost-effective approach for consolidating the capabilities of multiple LLMs without retraining. However, existing merging techniques, largely based on linear parameter arithmetic or optimization, struggle when applied to Mixture-of-Experts (MoE) arc…

报道来源 [2]

当模型合并破坏路由时：MoE 的无训练校准

模型合并破坏路由时：MoE 的无训练校准

相关实体

相关话题