PulseAugur
实时 22:27:00

新型HORST优化器增强稀疏Transformer训练

研究人员开发了HORST,这是一种旨在改进稀疏Transformer训练的新型优化器。标准优化器难以平衡稀疏性需求与训练稳定性。HORST通过将优化器步骤组合为非交换算子,并整合双曲几何来实现稳定性和L1稀疏性偏差。实验表明,HORST在视觉和语言任务中,尤其是在更高稀疏度级别下,显著优于AdamW基线。 AI

影响 能够更有效地训练稀疏Transformer模型,可能带来更小、更快的AI系统。

排序理由 该集群包含一篇详细介绍新AI模型训练方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新型HORST优化器增强稀疏Transformer训练

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Rebekka Burkholz ·

    HORST: Composing Optimizer Geometries for Sparse Transformer Training

    Sparsifying transformers remains a fundamental challenge, as standard optimizers fail to simultaneously encourage sparsity and maintain training stability. Effective adaptive optimizers exhibit an implicit $L_{\infty}$ bias favoring stability, yet, sparsity requires an $L_1$ bias…