PulseAugur
实时 11:53:08
English(EN) When Model Merging Breaks Routing: Training-Free Calibration for MoE

新方法校准 MoE 模型合并以修复路由中断

研究人员发现,在合并专家混合(MoE)大型语言模型时存在一个重大问题,称为“路由中断”。当合并过程破坏 MoE 路由器的能力,使其无法将 token 正确导向相应的专家模型时,就会发生这种情况,从而导致性能下降。为了解决这个问题,他们提出了 Hessian-Aware Router Calibration (HARC),这是一种新颖的无训练方法,利用二阶曲率信息来重新校准路由器。实验表明,HARC 在数学推理和代码生成等任务上能有效提高性能。 AI

影响 这项研究提供了一种提高大型语言模型(特别是 MoE 架构)合并效率和性能的方法,有可能减少对大量重新训练的需求。

排序理由 该集群包含一篇学术论文,详细介绍了一种改进模型合并技术的新方法。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Canbin Huang, Tianyuan Shi, Xiaojun Quan, Jingang Wang, Jianfei Zhang, Qifan Wang ·

    当模型合并破坏路由时:MoE 的无训练校准

    arXiv:2606.03391v1 Announce Type: cross Abstract: Model merging has emerged as a cost-effective approach for consolidating the capabilities of multiple LLMs without retraining. However, existing merging techniques, largely based on linear parameter arithmetic or optimization, str…

  2. arXiv cs.CL TIER_1 English(EN) · Qifan Wang ·

    模型合并破坏路由时:MoE 的无训练校准

    Model merging has emerged as a cost-effective approach for consolidating the capabilities of multiple LLMs without retraining. However, existing merging techniques, largely based on linear parameter arithmetic or optimization, struggle when applied to Mixture-of-Experts (MoE) arc…