PulseAugur
实时 02:57:43
English(EN) Communication-Efficient, 2D Parallel Stochastic Gradient Descent for Distributed-Memory Optimization

新的HybridSGD方法优化分布式内存AI训练

研究人员开发了HybridSGD,一种新颖的二维并行随机梯度下降法,旨在优化分布式内存系统的性能。这种新方法在现有的1D方法(如s-step SGD和Federated SGD with Averaging (FedAvg))之间提供了连续的权衡。理论分析证实了HybridSGD在收敛性、计算、通信和内存使用方面的优势。在Cray EX超级计算系统上的实证评估表明,在应用于二元分类任务时,HybridSGD比FedAvg具有更好的收敛性,并比s-step SGD和FedAvg实现了显著的加速。 AI

影响 这项研究可能导致在分布式计算系统上更高效地训练大型AI模型。

排序理由 该集群包含一篇详细介绍分布式优化新算法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv stat.ML 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的HybridSGD方法优化分布式内存AI训练

报道来源 [1]

  1. arXiv stat.ML TIER_1 English(EN) · Aditya Devarakonda, Ramakrishnan Kannan ·

    面向分布式内存优化的通信高效二维并行随机梯度下降

    arXiv:2501.07526v2 Announce Type: replace-cross Abstract: Distributed-memory implementations of numerical optimization algorithm, such as stochastic gradient descent (SGD), require interprocessor communication at every iteration of the algorithm. On modern distributed-memory clus…