PulseAugur
实时 09:35:45
English(EN) On the Residual Scaling of Looped Transformers: Stability and Transferability

循环 Transformer:新的缩放方法提高了稳定性和可迁移性

研究人员分析了循环 Transformer 的稳定性和可迁移性,这是一种跨越多轮迭代共享残差块的神经网络。他们发现,传统的残差缩放方法由于更新相关性而不足以应对这些架构。该研究提出了一种新的缩放因子 \epsilon = \lambda/(N\sqrt{L}),该因子将循环次数 (N) 和唯一层数 (L) 的影响分开,从而提高了可训练性并实现了超参数的直接迁移。实验证实,与替代缩放方法相比,该方法产生了更好的性能。 AI

影响 引入了一种新颖的缩放技术,可以提高训练深度 Transformer 模型的效率和性能。

排序理由 学术论文,详细介绍了训练 Transformer 模型的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Shaowen Wang, Bingrui Li, Ge Zhang, Wenhao Huang, Shen Yan, Jian Li ·

    On the Residual Scaling of Looped Transformers: Stability and Transferability

    arXiv:2606.18524v1 Announce Type: new Abstract: Looped (weight-tied) Transformers apply a shared residual block $N$ times ($h \leftarrow h + \varepsilon\,f(h)$, same $f$ at each step), increasing effective depth without adding parameters. Prior depth-scaling analyses prescribe $\…