English(EN) On the Residual Scaling of Looped Transformers: Stability and Transferability

循环 Transformer：新的缩放方法提高了稳定性和可迁移性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-18 04:00

研究人员分析了循环 Transformer 的稳定性和可迁移性，这是一种跨越多轮迭代共享残差块的神经网络。他们发现，传统的残差缩放方法由于更新相关性而不足以应对这些架构。该研究提出了一种新的缩放因子 \epsilon = \lambda/(N\sqrt{L})，该因子将循环次数 (N) 和唯一层数 (L) 的影响分开，从而提高了可训练性并实现了超参数的直接迁移。实验证实，与替代缩放方法相比，该方法产生了更好的性能。 AI

影响引入了一种新颖的缩放技术，可以提高训练深度 Transformer 模型的效率和性能。

排序理由学术论文，详细介绍了训练 Transformer 模型的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Shaowen Wang, Bingrui Li, Ge Zhang, Wenhao Huang, Shen Yan, Jian Li · 2026-06-18 04:00

On the Residual Scaling of Looped Transformers: Stability and Transferability

arXiv:2606.18524v1 Announce Type: new Abstract: Looped (weight-tied) Transformers apply a shared residual block $N$ times ($h \leftarrow h + \varepsilon\,f(h)$, same $f$ at each step), increasing effective depth without adding parameters. Prior depth-scaling analyses prescribe $\…

报道来源 [1]

On the Residual Scaling of Looped Transformers: Stability and Transferability

相关实体

相关话题