FedQueue protocol optimizes federated learning for HPC facilities

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-05 04:00

Researchers have developed FedQueue, a novel protocol designed to optimize federated learning across multiple High-Performance Computing (HPC) facilities. This system addresses the significant delays caused by batch scheduler queues, which can dominate training time. FedQueue incorporates queue delay predictions and cutoff-based admission to manage local work and buffer late arrivals, thereby bounding update staleness. The protocol also employs staleness-aware aggregation to stabilize heterogeneous workloads, leading to improved convergence and reduced training time. AI

影响 Optimizes federated learning efficiency in distributed HPC environments, potentially reducing training times for large-scale AI models.

排序理由 This is a research paper detailing a new protocol for federated learning. [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Yijiang Li, Emon Dey, Zilinghan Li, Krishnan Raghavan, Ravi Madduri, Kibaek Kim · 2026-05-05 04:00

FedQueue: Queue-Aware Federated Learning for Cross-Facility HPC Training

arXiv:2605.02125v1 Announce Type: cross Abstract: Federated learning (FL) across multiple HPC facilities faces stochastic admission delays from batch schedulers that dominate wall-clock time. Synchronous FL suffers from severe stragglers, while asynchronous FL accumulates stale u…

报道来源 [1]

FedQueue: Queue-Aware Federated Learning for Cross-Facility HPC Training

相关实体

相关话题