研究人员使用平均偏雅可比范数(APJN)分析了无归一化Transformer中的信号传播。他们的理论解释了注意力机制如何影响深度视觉Transformer中APJN的增长。研究表明,使用LayerNorm的Transformer表现出幂律APJN增长,而使用逐元素非线性的Transformer则处于亚临界状态,需要仔细的初始化和优化才能实现稳定的训练。 AI
影响 为Transformer训练稳定性提供了理论见解,可能指导未来的架构设计。
排序理由 学术论文,分析Transformer架构中的信号传播。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →