研究人员开发了一种用于 GPU 上的广义线性模型的混合精度通信规避 SGD (CA-SGD) 方法。该方法旨在通过将通信分摊到多个迭代中来减少分布式训练中的通信瓶颈。该方法利用现代 GPU 的矩阵硬件和较低精度格式来加速计算并缩小数据传输,与标准的 FP32 SGD 相比实现了显著的加速。 AI
影响 通过减少通信开销,该方法有望缩短大规模机器学习模型的训练时间。
排序理由 该集群包含一篇学术论文,详细介绍了一种用于优化 GPU 上机器学习训练的新方法。
- A100 GPUs
- bfloat16
- CA-SGD
- epsilon
- HIGGS
- linear
- NERSC Perlmutter
- NVIDIA GPUs
- Poisson
- Poisson-synth
- SGD
- single-precision floating-point format
- Generalized Linear Models
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →