PulseAugur
实时 04:15:44
实体 GrassJump

GrassJump

PulseAugur coverage of GrassJump — every cluster mentioning GrassJump across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_117616 ·

    新研究探索非线性缩放和几何优化以实现高效LLM训练

    两篇新研究论文探讨了更高效训练大型语言模型(LLM)的方法。第一篇论文《关于LLM训练学习率缩放的非线性研究》调查了当前学习率外推法的局限性,并提出最优学习率在更大规模下呈现向上曲率,这可以通过关注有效学习率或数据外推来缓解。第二篇论文《面向高效LLM训练的几何原理随机优化》引入了新算法GrassWalk和GrassJump,它们利用梯度子空间的几何特性来提高优化效率,在LLaMA和Qwen等模型上取得了最先进的成果。