两篇新的研究论文介绍了用于深度学习模型的新型优化技术。第一篇论文《Fantastic Pretraining Optimizers and Where to Find Them II: Hyperball Optimization》提出了 Hyperball,这是一种优化器包装器,通过固定权重矩阵范数来在模型规模不断增大的情况下保持性能提升。第二篇论文《OptEMA: Adaptive Exponential Moving Average for Stochastic Optimization with Zero-Noise Optimality》提出了 OptEMA,这是一种自适应 EMA 优化器,在零噪声情况下无需手动调整超参数即可达到接近最优的速率。第三篇论文《Gefen: Optimized Stochastic Optimizer》介绍了 Gefen,这是一种内存效率高的优化器,可将 AdamW 的内存占用减少约 8 倍,同时保持性能,从而能够使用更大的批次大小和可能更大的模型。 AI
影响 这些新的优化技术有望通过减少内存限制来缩短训练时间,并支持更大、更复杂的 AI 模型的发展。
排序理由 多篇 arXiv 论文详细介绍了深度学习模型的新优化技术。
- AdamW
- arXiv
- CUDA
- Deportation Data Project
- FSDPC
- Gefen
- Hessian
- Python
- Adam
- Hugging Face
- Hyperball
- Leo Frobenius
- muon
- OptEMA
- Qwen3
AI 生成摘要 · Google Gemini · 来自 5 个来源。 我们如何撰写摘要 →