研究人员推出了一种新颖的时间预处理方法 CacheMuon,旨在优化 Muon 优化器中极分解的计算。通过利用这些因子在训练迭代中的时间相关性,CacheMuon 重用先前的信息来近似当前的极分解,从而减少冗余计算。这种方法在计算效率和模型质量之间提供了可控的权衡,在语言模型和视觉训练中,通过最小化验证质量的下降,显著节省了正交化 FLOPs。 AI
影响 CacheMuon 为 AI 训练提供了可控的质量-效率前沿,有望降低语言模型和视觉任务的计算成本。
排序理由 这是一篇详细介绍优化 AI 训练过程新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →