研究人员开发了OptCC,这是一种旨在提高大规模GPU集群中AllReduce操作效率的新算法,尤其是在发生网络故障时。该算法接近完成时间的理论下限,显著减少了现有容错方法通常会看到的性能下降。实验表明,即使由于网络问题导致带宽大幅损失,OptCC仍能保持接近最优的性能,优于当前最先进的方法。 AI
影响 减少了大规模AI模型训练基础设施中的训练作业中断,并提高了效率。
排序理由 详细介绍分布式计算新算法的学术论文。[lever_c_demoted from research: ic=1 ai=0.7]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →