English(EN) Bringing Order to Asynchronous SGD: Towards Optimality under Data-Dependent Delays with Momentum

为异步 SGD 带来秩序：在具有动量的依赖数据延迟下实现最优

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-05 04:00

研究人员开发了一种新的随机梯度下降（SGD）异步框架，旨在提高分布式训练的效率。该方法使用动量来保留来自延迟梯度的信息，解决了异步 SGD 中的陈旧性问题。该框架在依赖数据的延迟下，实现了凸和非凸光滑优化问题的最优收敛率，这是此类异步优化的一项新颖成果。 AI

影响引入了一种新颖的优化技术，可以提高分布式 AI 模型训练的效率和可扩展性。

排序理由这是一篇关于分布式机器学习训练新优化框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Tehila Dahan, Roie Reshef, Sharon Goldstein, Kfir Y. Levy · 2026-05-05 04:00

Bringing Order to Asynchronous SGD: Towards Optimality under Data-Dependent Delays with Momentum

arXiv:2605.02043v1 Announce Type: new Abstract: Asynchronous stochastic gradient descent (SGD) enables scalable distributed training but suffers from gradient staleness. Existing mitigation strategies, such as delay-adaptive learning rates and staleness-aware filtering, typically…