研究人员开发了HORST,这是一种旨在改进稀疏Transformer训练的新型优化器。标准优化器难以平衡稀疏性需求与训练稳定性。HORST通过将优化器步骤组合为非交换算子,并整合双曲几何来实现稳定性和L1稀疏性偏差。实验表明,HORST在视觉和语言任务中,尤其是在更高稀疏度级别下,显著优于AdamW基线。 AI
影响 能够更有效地训练稀疏Transformer模型,可能带来更小、更快的AI系统。
排序理由 该集群包含一篇详细介绍新AI模型训练方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →