研究人员分析无归一化Transformer中的信号传播

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-05 04:00

研究人员使用平均偏雅可比范数（APJN）分析了无归一化Transformer中的信号传播。他们的理论解释了注意力机制如何影响深度视觉Transformer中APJN的增长。研究表明，使用LayerNorm的Transformer表现出幂律APJN增长，而使用逐元素非线性的Transformer则处于亚临界状态，需要仔细的初始化和优化才能实现稳定的训练。 AI

影响为Transformer训练稳定性提供了理论见解，可能指导未来的架构设计。

排序理由学术论文，分析Transformer架构中的信号传播。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv stat.ML 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv stat.ML TIER_1 English(EN) · Sergey Alekseev · 2026-05-05 04:00

Subcritical Signal Propagation at Initialization in Normalization-Free Transformers

arXiv:2604.11890v2 Announce Type: replace-cross Abstract: We study signal propagation at initialization in transformers through the averaged partial Jacobian norm (APJN), a measure of gradient amplification across layers. We extend APJN analysis to transformers with bidirectional…

报道来源 [1]

Subcritical Signal Propagation at Initialization in Normalization-Free Transformers

相关实体

相关话题