实体
Dynamic Tanh
Dynamic Tanh
PulseAugur coverage of Dynamic Tanh — every cluster mentioning Dynamic Tanh across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
最近 · 第 1/1 页 · 共 2 条
-
Researchers analyze signal propagation in normalization-free transformers
Researchers have analyzed signal propagation in normalization-free transformers using the averaged partial Jacobian norm (APJN). Their theory explains how attention mechanisms affect APJN growth in deep vision transform…
-
研究:移除 LLM 中的 LayerNorm 可作为隐式正则化器,其影响取决于训练数据大小。
研究人员调查了从神经网络架构中移除层归一化(LayerNorm)的影响,特别是在 GPT-2 和 Llama 等模型中。他们的发现表明,用学习到的激活边界机制动态双曲正切(DyT)替换 LayerNorm,可以作为一种依赖于训练阶段的隐式正则化器。这意味着 DyT 可以在某些训练阶段(例如,较小的数据集)提高性能,但在其他阶段(例如,较大的数据集或增加模型容量)会降低性能。该研究表明,激活饱和是 DyT 性能的关键因素,其饱和水平因模…