English(EN) Communication-Efficient, 2D Parallel Stochastic Gradient Descent for Distributed-Memory Optimization

新的HybridSGD方法优化分布式内存AI训练

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-26 04:00

研究人员开发了HybridSGD，一种新颖的二维并行随机梯度下降法，旨在优化分布式内存系统的性能。这种新方法在现有的1D方法（如s-step SGD和Federated SGD with Averaging (FedAvg)）之间提供了连续的权衡。理论分析证实了HybridSGD在收敛性、计算、通信和内存使用方面的优势。在Cray EX超级计算系统上的实证评估表明，在应用于二元分类任务时，HybridSGD比FedAvg具有更好的收敛性，并比s-step SGD和FedAvg实现了显著的加速。 AI

影响这项研究可能导致在分布式计算系统上更高效地训练大型AI模型。

排序理由该集群包含一篇详细介绍分布式优化新算法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv stat.ML 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv stat.ML TIER_1 English(EN) · Aditya Devarakonda, Ramakrishnan Kannan · 2026-06-26 04:00

面向分布式内存优化的通信高效二维并行随机梯度下降

arXiv:2501.07526v2 Announce Type: replace-cross Abstract: Distributed-memory implementations of numerical optimization algorithm, such as stochastic gradient descent (SGD), require interprocessor communication at every iteration of the algorithm. On modern distributed-memory clus…

报道来源 [1]

面向分布式内存优化的通信高效二维并行随机梯度下降

相关实体

相关话题