DBLP 协议通过管理网络拥塞期间的梯度损失来增强分布式机器学习训练。

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-05 04:00

研究人员开发了一种名为 DBLP 的新传输协议，旨在提高分布式机器学习训练的效率和弹性。DBLP 通过将模型级别的容忍度属性纳入梯度通信，解决了由网络拥塞引起的尾部延迟和训练变异性问题。这种面向阶段的方法动态调整梯度损失容忍度，从而缩短训练时间并提高性能稳定性，尤其是在瞬态网络事件期间。 AI

影响该协议可以通过缓解网络引起的性能问题，显著缩短大型机器学习模型的训练时间并提高其稳定性。

排序理由这是一篇详细介绍分布式机器学习训练新协议的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Zechen Ma, Zixi Qu, Jinyan Yi, David Lin, Yashar Ganjali · 2026-05-05 04:00

DBLP: Phase-Aware Bounded-Loss Transport for Burst-Resilient Distributed ML Training

arXiv:2605.01989v1 Announce Type: new Abstract: Distributed machine learning (ML) training has become a necessity with the prevalence of billion to trillion-parameter-scale models. While prior work has improved training efficiency from the ML perspective at the application layer,…