PulseAugur
实时 03:36:45
实体 SiameseNorm

SiameseNorm

PulseAugur coverage of SiameseNorm — every cluster mentioning SiameseNorm across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_44846 ·

    SiameseNorm 架构提高了 Transformer 训练稳定性

    研究人员推出了一种新颖的双流架构 SiameseNorm,旨在解决 Transformer 模型中长期存在的预归一化(Pre-Norm)和后归一化(Post-Norm)之间的冲突。该方法在共享残差块内耦合了预归一化和后归一化流,能够在没有显著开销的情况下提高训练稳定性和表示能力。在包括密集语言模型、Vision Transformer 和 Diffusion Transformer 在内的各种模型尺寸和类型上的实验表明,性能持续提升且训练稳定。