研究人员开发了 Ember,这是一种新颖的优化器,旨在通过专注于嵌入表和 LM-head 矩阵来增强语言模型的训练。与 Adam 等传统优化器相比,这种方法所需的 VRAM 大大减少,并且可以提高监督微调、强化学习和预训练的性能。Ember 的有效性已通过实证得到证明,显示出其在批处理大小和参数数量上的可扩展性,并表明 token 优化轨迹遵循简单的 1D 光线。 AI
影响 Ember 可能会大大减少训练大型语言模型所需的计算资源,从而可能使先进的 AI 开发的访问更加普及。
排序理由 该集群包含一篇详细介绍语言模型新优化技术的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →