PulseAugur
实时 17:49:06
English(EN) Muon$^p$: Muon with Fractional Spectral Powers

新的Muon^p优化器增强了大模型的微调

研究人员推出了一种名为Muon$^p$的优化技术,该技术通过使用分数谱幂更新来改进现有的Muon优化器。该方法在完全谱展平和标准梯度下降之间进行插值,旨在保留有价值的奇异值信息以实现更好的适应性。Muon$^p$在微调大规模模型方面特别有效,在验证困惑度和下游任务性能方面均有所提高,同时保持与Muon相似的计算复杂度。 AI

排序理由 该集群包含一篇详细介绍机器学习模型新优化技术的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Yihe Dong, Will Sawin ·

    Muon$^p$: Muon with Fractional Spectral Powers

    arXiv:2606.13867v1 Announce Type: new Abstract: Muon is an increasingly widely used optimizer that replaces a gradient $G=USV^\top$ with its polar factor $UV^\top$, thereby flattening the singular spectrum. However, full flattening discards singular-value information that may mat…