PulseAugur
实时 08:09:44
实体 Norm-Separation Delay Law

Norm-Separation Delay Law

PulseAugur coverage of Norm-Separation Delay Law — every cluster mentioning Norm-Separation Delay Law across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_14472 ·

    AdamW风格Shampoo的收敛率分析:统一单边和双边预处理

    一项名为“范数分离延迟定律”的新理论解释了“grokking”现象,即模型在记忆训练数据后仍能泛化。研究人员证明了grokking是由范数驱动的表征相变,并建立了延迟与权重衰减和学习率等因素之间的数学关系。这项工作将grokking重新定义为范数分离的可预测结果,并提供了一种预测grokking延迟的算法。