研究人员开发了一种新颖的方法,通过利用权重空间对称性来近似大型深度学习模型中损失函数的曲率。该方法对保持损失不变的群作用进行解析平均,从而能够从单个梯度构建结构化的Hessian近似。该框架允许用户通过选择特定的对称群来控制准确性-成本权衡,并统一了现有的方法,如Shampoo/Muon。该技术已在各种架构上得到验证,并应用于二阶优化基准测试,包括一个小型语言模型,在不确定性估计和持续学习等领域具有潜在应用。 AI
影响 这项研究通过改进曲率近似,可能导致更有效的训练和对深度学习模型的更好理解。
排序理由 该集群包含一篇详细介绍新研究方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →