研究人员分析了循环 Transformer 的稳定性和可迁移性,这是一种跨越多轮迭代共享残差块的神经网络。他们发现,传统的残差缩放方法由于更新相关性而不足以应对这些架构。该研究提出了一种新的缩放因子 \epsilon = \lambda/(N\sqrt{L}),该因子将循环次数 (N) 和唯一层数 (L) 的影响分开,从而提高了可训练性并实现了超参数的直接迁移。实验证实,与替代缩放方法相比,该方法产生了更好的性能。 AI
影响 引入了一种新颖的缩放技术,可以提高训练深度 Transformer 模型的效率和性能。
排序理由 学术论文,详细介绍了训练 Transformer 模型的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →