English(EN) When to use what Schatten-$p$ norm in deep learning?

研究论文详述深度学习中Schatten-p范数的最佳用法

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

一篇新研究论文探讨了Schatten-p范数在深度学习中的最佳用法，特别是在与Muon等优化器相关的方面。研究表明，这些范数的有效性取决于特定机制，在低维设置（包括与Chinchilla缩放相关的设置）中，较小的Schatten-p几何结构被证明是最佳的。该分析还深入探讨了为何类似Muon的方法倾向于使用大批量，并为不同p值下的批量大小提供了缩放规则。 AI

影响为优化深度学习模型提供了理论指导，可能提高训练效率和性能。

排序理由该集群包含一篇在arXiv上发表的研究论文，详细介绍了深度学习优化方面的理论发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Thomas Pethick · 2026-06-16 04:00

When to use what Schatten-$p$ norm in deep learning?

arXiv:2606.15268v1 Announce Type: new Abstract: Schatten-$\infty$ based optimizers such as Muon have shown promising empirical performance, but there remains seemingly conflicting observations regarding whether they are beneficial. We resolve this conflict by showing that the con…

报道来源 [1]

When to use what Schatten-$p$ norm in deep learning?

相关实体

相关话题