研究人员推出了一种用于大型语言模型(LLM)的专家混合(MoE)架构的新方法 SoftMoE。与使用不可微分的 top-k 路由机制的传统稀疏 MoE 模型不同,SoftMoE 采用了一种软的、可微分的路由方法。这允许跨层的专家分配进行基于梯度的优化,使模型能够学习更有效的计算资源分配。所提出的方法在利用更少的激活专家的情况下,实现了与现有稀疏 MoE 模型相当或更好的性能。 AI
影响 为 MoE 模型引入了可微分路由机制,有望提高 LLM 的效率和性能。
排序理由 该集群包含一篇详细介绍 LLM 架构新技术的论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →