English(EN) More Expressive Feedforward Layers: Part I. Token-Adaptive Mixing of Activations

新的MoA FFN设计增强了LLM的表现力和可扩展性

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-26 07:30

研究人员为大型语言模型（LLM）引入了一种新颖的前馈网络（FFN）设计，称为激活混合（Mixture of Activations, MoA）。MoA利用了自适应激活混合，允许基于轻量级的、依赖输入的门控机制，将不同的激活函数应用于不同的token。这种方法理论上比固定的激活函数FFN和可学习激活函数（LA）具有更强的表现力。在从0.12B到2B参数的模型上进行的实证评估表明，MoA以最小的开销持续实现更低的终端损失和更好的可扩展性。 AI

影响这种新的FFN设计通过提高LLM的非线性表现力和可扩展性，有望带来更高效、更强大的LLM。

排序理由该集群包含一篇学术论文，详细介绍了改进LLM前馈网络层的新方法。

在 arXiv stat.ML 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv stat.ML TIER_1 English(EN) · Mingze Wang, Jinbo Wang, Yikuan Xia, Kai Shen, Shu Zhong · 2026-05-27 04:00

更具表现力的前馈层：第一部分。激活的令牌自适应混合

arXiv:2605.26647v1 Announce Type: cross Abstract: Feedforward network (FFN) layers account for a large fraction of parameters and nonlinear expressivity in Transformer-based large language models (LLMs). Despite the evolution from ReLU and GELU to gated variants such as SwiGLU, m…
arXiv stat.ML TIER_1 English(EN) · Shu Zhong · 2026-05-26 07:30

更具表现力的前馈层：第一部分。激活的令牌自适应混合

Feedforward network (FFN) layers account for a large fraction of parameters and nonlinear expressivity in Transformer-based large language models (LLMs). Despite the evolution from ReLU and GELU to gated variants such as SwiGLU, most FFN designs still use a single fixed activatio…

报道来源 [2]

更具表现力的前馈层：第一部分。激活的令牌自适应混合

更具表现力的前馈层：第一部分。激活的令牌自适应混合

相关实体

相关话题