PulseAugur
实时 10:17:43
实体 specSGD

specSGD

PulseAugur coverage of specSGD — every cluster mentioning specSGD across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_123136 ·

    新的自适应批次大小方法将训练步骤减少多达 66%

    研究人员开发了一种新的机器学习自适应批次大小方法,该方法考虑了诸如 signSGD 和谱下降等优化器的非欧几里得几何。该方法使用局部 mini-batch 梯度估计非欧几里得梯度噪声尺度,可以显著减少训练步骤。实验表明,使用 signSGD 和谱下降对一个拥有 1.6 亿参数的 Llama 模型,训练步骤减少了多达 66%,同时验证损失与恒定批次基线相匹配。