English(EN) Universal One-third Time Scaling in Learning Peaked Distributions

论文用通用1/3时间缩放解释LLM训练瓶颈

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员在峰值概率分布的学习过程中发现了一种通用的三分之一时间缩放现象，这种现象在大型语言模型中也有观察到。这种行为源于softmax和交叉熵的使用，造成了基本的优化瓶颈，导致损失和梯度的收敛速度呈幂律下降。这些发现为观察到的神经缩放提供了机制性解释，并为提高LLM训练效率指明了方向。 AI

影响解释了LLM训练中的一个基本瓶颈，可能指导提高效率的努力。

排序理由这是一篇研究论文，详细介绍了关于LLM训练动态的理论发现。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv stat.ML TIER_1 English(EN) · Yizhou Liu, Ziming Liu, Cengiz Pehlevan, Jeff Gore · 2026-06-02 04:00

学习峰值分布的通用三分之一时间缩放

arXiv:2602.03685v2 Announce Type: replace-cross Abstract: Training large language models (LLMs) is computationally expensive, partly because the loss exhibits slow power-law convergence whose origin remains debatable. Through systematic analysis of toy models and empirical evalua…