PulseAugur
实时 23:26:30
English(EN) SiameseNorm: Breaking the Barrier to Reconciling Pre/Post-Norm

SiameseNorm 架构提高了 Transformer 训练稳定性

研究人员推出了一种新颖的双流架构 SiameseNorm,旨在解决 Transformer 模型中长期存在的预归一化(Pre-Norm)和后归一化(Post-Norm)之间的冲突。该方法在共享残差块内耦合了预归一化和后归一化流,能够在没有显著开销的情况下提高训练稳定性和表示能力。在包括密集语言模型、Vision Transformer 和 Diffusion Transformer 在内的各种模型尺寸和类型上的实验表明,性能持续提升且训练稳定。 AI

影响 引入了一种新颖的架构,提高了各种 Transformer 模型的训练稳定性和性能。

排序理由 该集群包含一篇详细介绍 Transformer 模型新架构的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Tianyu Li, Dongchen Han, Zixuan Cao, Haofeng Huang, Mengyu Zhou, Ming Chen, Erchao Zhao, Xiaoxi Jiang, Guanjun Jiang, Gao Huang ·

    SiameseNorm:打破预/后归一化协调的壁垒

    arXiv:2602.08064v2 Announce Type: replace-cross Abstract: The long-standing tension between Pre- and Post-Norm remains an open problem in Transformer architecture, reflecting a fundamental trade-off between training stability and representational capacity. Prior attempts to combi…