PulseAugur
实时 15:25:16
English(EN) SoftMoE: Soft Differentiable Routing for Mixture-of-Experts in LLMs

SoftMoE 为专家混合 LLM 引入了可微分路由

研究人员推出了一种用于大型语言模型(LLM)的专家混合(MoE)架构的新方法 SoftMoE。与使用不可微分的 top-k 路由机制的传统稀疏 MoE 模型不同,SoftMoE 采用了一种软的、可微分的路由方法。这允许跨层的专家分配进行基于梯度的优化,使模型能够学习更有效的计算资源分配。所提出的方法在利用更少的激活专家的情况下,实现了与现有稀疏 MoE 模型相当或更好的性能。 AI

影响 为 MoE 模型引入了可微分路由机制,有望提高 LLM 的效率和性能。

排序理由 该集群包含一篇详细介绍 LLM 架构新技术的论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

SoftMoE 为专家混合 LLM 引入了可微分路由

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Miko{\l}aj Zasada, {\L}ukasz Struski, Jacek Tabor, Marcin Kurdziel ·

    SoftMoE:LLM中用于混合专家的软可微分路由

    arXiv:2606.17952v1 Announce Type: cross Abstract: Sparse Mixture-of-Experts (MoE) architectures enable scaling LLM parameters under a fixed inference budget by activating only a small subset of experts via top-$k$ routing. While this preserves causality and suits autoregressive l…

  2. arXiv cs.AI TIER_1 English(EN) · Marcin Kurdziel ·

    SoftMoE:LLM中具有软可微路由的混合专家模型

    Sparse Mixture-of-Experts (MoE) architectures enable scaling LLM parameters under a fixed inference budget by activating only a small subset of experts via top-$k$ routing. While this preserves causality and suits autoregressive language models, the discrete top-$k$ operator is n…