PulseAugur
实时 11:47:03
English(EN) Adaptive Batch Sizes Using Non-Euclidean Gradient Noise Scales for Stochastic Sign and Spectral Descent

新的自适应批次大小方法将训练步骤减少多达 66%

研究人员开发了一种新的机器学习自适应批次大小方法,该方法考虑了诸如 signSGD 和谱下降等优化器的非欧几里得几何。该方法使用局部 mini-batch 梯度估计非欧几里得梯度噪声尺度,可以显著减少训练步骤。实验表明,使用 signSGD 和谱下降对一个拥有 1.6 亿参数的 Llama 模型,训练步骤减少了多达 66%,同时验证损失与恒定批次基线相匹配。 AI

影响 该方法可能导致更高效的大型语言模型训练,降低计算成本和时间。

排序理由 该集群包含一篇详细介绍优化机器学习训练新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的自适应批次大小方法将训练步骤减少多达 66%

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Hiroki Naganuma, Shagun Gupta, Youssef Briki, Ioannis Mitliagkas, Irina Rish, Parameswaran Raman, Hao-Jun Michael Shi ·

    Adaptive Batch Sizes Using Non-Euclidean Gradient Noise Scales for Stochastic Sign and Spectral Descent

    arXiv:2602.03001v2 Announce Type: replace-cross Abstract: To maximize hardware utilization, modern machine learning systems typically employ large constant or manually tuned batch size schedules, relying on heuristics that are brittle and costly to tune. Existing adaptive strateg…