English(EN) SiameseNorm: Breaking the Barrier to Reconciling Pre/Post-Norm

SiameseNorm 架构提高了 Transformer 训练稳定性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-22 04:00

研究人员推出了一种新颖的双流架构 SiameseNorm，旨在解决 Transformer 模型中长期存在的预归一化（Pre-Norm）和后归一化（Post-Norm）之间的冲突。该方法在共享残差块内耦合了预归一化和后归一化流，能够在没有显著开销的情况下提高训练稳定性和表示能力。在包括密集语言模型、Vision Transformer 和 Diffusion Transformer 在内的各种模型尺寸和类型上的实验表明，性能持续提升且训练稳定。 AI

影响引入了一种新颖的架构，提高了各种 Transformer 模型的训练稳定性和性能。

排序理由该集群包含一篇详细介绍 Transformer 模型新架构的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Tianyu Li, Dongchen Han, Zixuan Cao, Haofeng Huang, Mengyu Zhou, Ming Chen, Erchao Zhao, Xiaoxi Jiang, Guanjun Jiang, Gao Huang · 2026-05-22 04:00

SiameseNorm：打破预/后归一化协调的壁垒

arXiv:2602.08064v2 Announce Type: replace-cross Abstract: The long-standing tension between Pre- and Post-Norm remains an open problem in Transformer architecture, reflecting a fundamental trade-off between training stability and representational capacity. Prior attempts to combi…

报道来源 [1]

SiameseNorm：打破预/后归一化协调的壁垒

相关实体

相关话题