研究人员调查了一个单隐藏层 MLP 周围的跳跃连接是否可以被吸收进一个相同宽度的无残差 MLP。他们发现,对于 ReLU^2 和 ReGLU 等某些激活函数,由于次数参数的原因,吸收是不可能的。对于 SwiGLU 和 GeGLU 等门控激活函数,线性化参数也得出了相同的结论。虽然在特定的、非通用的权重条件下,吸收对于无门控的 ReLU 和 GELU 是可能的,但跳跃连接和无残差的 MLP 通常代表不同的函数类别。 AI
影响 探讨了 MLP 架构的理论局限性,可能影响未来的模型设计。
排序理由 这是一篇发表在 arXiv 上的研究论文,讨论了 MLP 的理论特性。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →