PulseAugur
实时 12:11:25
实体 Hessian

Hessian

PulseAugur coverage of Hessian — every cluster mentioning Hessian across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
3
90 天内 3
发布 · 30天
0
90 天内 0
论文 · 30天
3
90 天内 3
层级分布 · 90 天
主题
情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 3 条
  1. RESEARCH · CL_93696 ·

    新的“架构预热”稳定了Transformer训练

    研究人员开发了一种新方法来稳定大型Transformer模型的训练,这类模型通常容易出现不稳定性或发散。该方法称为“架构预热”,通过逐步增加网络深度来管理预条件Hessian,这是与训练不稳定性相关的曲率度量。该技术得到了一个用于Hessian特征值快速在线估计器的支持,已被证明可以在不影响收敛的情况下减少不稳定性。

  2. RESEARCH · CL_90893 ·

    新的优化器有望实现更快、更节省内存的 AI 模型训练

    两篇新的研究论文介绍了用于深度学习模型的新型优化技术。第一篇论文《Fantastic Pretraining Optimizers and Where to Find Them II: Hyperball Optimization》提出了 Hyperball,这是一种优化器包装器,通过固定权重矩阵范数来在模型规模不断增大的情况下保持性能提升。第二篇论文《OptEMA: Adaptive Exponential Moving Avera…

  3. RESEARCH · CL_08352 ·

    新研究探讨了网络对称性如何帮助优化过参数化的深度学习模型。

    一篇新论文分析了神经网络中的过参数化如何通过引入额外的对称性来帮助优化。这些对称性充当了Hessian的预条件形式,从而导致更好的条件最小化。此外,过参数化增加了找到接近典型初始化的全局最小值的可能性,使其更容易获得。通过师生网络进行的实验证实了这些理论预测,显示随着网络宽度的增加,收敛性和条件数都有所改善。