研究人员开发了一种新的机器学习自适应批次大小方法,该方法考虑了诸如 signSGD 和谱下降等优化器的非欧几里得几何。该方法使用局部 mini-batch 梯度估计非欧几里得梯度噪声尺度,可以显著减少训练步骤。实验表明,使用 signSGD 和谱下降对一个拥有 1.6 亿参数的 Llama 模型,训练步骤减少了多达 66%,同时验证损失与恒定批次基线相匹配。 AI
影响 该方法可能导致更高效的大型语言模型训练,降低计算成本和时间。
排序理由 该集群包含一篇详细介绍优化机器学习训练新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →