PulseAugur
实时 16:52:25
实体 Derf

Derf

PulseAugur coverage of Derf — every cluster mentioning Derf across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_15839 ·

    研究人员分析无归一化Transformer中的信号传播

    研究人员使用平均偏雅可比范数(APJN)分析了无归一化Transformer中的信号传播。他们的理论解释了注意力机制如何影响深度视觉Transformer中APJN的增长。研究表明,使用LayerNorm的Transformer表现出幂律APJN增长,而使用逐元素非线性的Transformer则处于亚临界状态,需要仔细的初始化和优化才能实现稳定的训练。