English(EN) SoftMoE: Soft Differentiable Routing for Mixture-of-Experts in LLMs

SoftMoE 为专家混合 LLM 引入了可微分路由

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-16 14:05

研究人员推出了一种用于大型语言模型（LLM）的专家混合（MoE）架构的新方法 SoftMoE。与使用不可微分的 top-k 路由机制的传统稀疏 MoE 模型不同，SoftMoE 采用了一种软的、可微分的路由方法。这允许跨层的专家分配进行基于梯度的优化，使模型能够学习更有效的计算资源分配。所提出的方法在利用更少的激活专家的情况下，实现了与现有稀疏 MoE 模型相当或更好的性能。 AI

影响为 MoE 模型引入了可微分路由机制，有望提高 LLM 的效率和性能。

排序理由该集群包含一篇详细介绍 LLM 架构新技术的论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Miko{\l}aj Zasada, {\L}ukasz Struski, Jacek Tabor, Marcin Kurdziel · 2026-06-17 04:00

SoftMoE：LLM中用于混合专家的软可微分路由

arXiv:2606.17952v1 Announce Type: cross Abstract: Sparse Mixture-of-Experts (MoE) architectures enable scaling LLM parameters under a fixed inference budget by activating only a small subset of experts via top-$k$ routing. While this preserves causality and suits autoregressive l…
arXiv cs.AI TIER_1 English(EN) · Marcin Kurdziel · 2026-06-16 14:05

SoftMoE：LLM中具有软可微路由的混合专家模型

Sparse Mixture-of-Experts (MoE) architectures enable scaling LLM parameters under a fixed inference budget by activating only a small subset of experts via top-$k$ routing. While this preserves causality and suits autoregressive language models, the discrete top-$k$ operator is n…

报道来源 [2]

SoftMoE：LLM中用于混合专家的软可微分路由

SoftMoE：LLM中具有软可微路由的混合专家模型

相关实体

相关话题