PulseAugur
实时 01:57:31
English(EN) Complete-muE: Optimal Hyperparameter Transfer and Scaling for MoE Models

Complete-muE 框架优化混合专家(MoE)模型的超参数迁移

研究人员推出 Complete-muE,一个旨在优化混合专家(MoE)模型超参数迁移的新颖框架。该系统通过实现密集前馈网络与各种 MoE 配置之间的有效超参数迁移,解决了现有工具的局限性。Complete-muE 利用双桥接系统来管理架构和 token 数量的变化,从而可以将在一个单一密集模型上调整的超参数近乎最优地应用于所有 MoE 设置。 AI

影响 通过减少对广泛超参数搜索的需求,实现了 MoE 模型的高效扩展。

排序理由 该集群包含一篇详细介绍用于优化模型超参数的新框架的研究论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.LG TIER_1 English(EN) · Hongwu Peng, Ohiremen Dibua, Yuanjun Xiong, Yifan Gong, Jianming Zhang, Yan Kang ·

    Complete-muE:MoE模型的最佳超参数迁移与缩放

    arXiv:2605.23893v1 Announce Type: new Abstract: We propose Complete-muE, a framework which targets hyperparameter transfer across dense FFN and any Mixture-of-Experts (MoE) setups in transformer blocks. Existing tools such as $\mu$P (requires fixed architectue) or SDE (requires f…

  2. arXiv cs.LG TIER_1 English(EN) · Yan Kang ·

    Complete-muE:MoE模型的最佳超参数迁移与缩放

    We propose Complete-muE, a framework which targets hyperparameter transfer across dense FFN and any Mixture-of-Experts (MoE) setups in transformer blocks. Existing tools such as $μ$P (requires fixed architectue) or SDE (requires fixed per-step token count) cannot directly solve t…