研究人员推出了一种名为Muon$^p$的优化技术,该技术通过使用分数谱幂更新来改进现有的Muon优化器。该方法在完全谱展平和标准梯度下降之间进行插值,旨在保留有价值的奇异值信息以实现更好的适应性。Muon$^p$在微调大规模模型方面特别有效,在验证困惑度和下游任务性能方面均有所提高,同时保持与Muon相似的计算复杂度。 AI
排序理由 该集群包含一篇详细介绍机器学习模型新优化技术的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →