研究人员为大型语言模型(LLM)引入了一种新颖的前馈网络(FFN)设计,称为激活混合(Mixture of Activations, MoA)。MoA利用了自适应激活混合,允许基于轻量级的、依赖输入的门控机制,将不同的激活函数应用于不同的token。这种方法理论上比固定的激活函数FFN和可学习激活函数(LA)具有更强的表现力。在从0.12B到2B参数的模型上进行的实证评估表明,MoA以最小的开销持续实现更低的终端损失和更好的可扩展性。 AI
影响 这种新的FFN设计通过提高LLM的非线性表现力和可扩展性,有望带来更高效、更强大的LLM。
排序理由 该集群包含一篇学术论文,详细介绍了改进LLM前馈网络层的新方法。
- Feedforward network (FFN)
- GELU
- Large language models (LLMs)
- Learnable activations (LA)
- Mixture of Activations (MoA)
- ReLU
- SwiGLU
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →