English(EN) From Detection to Recovery: Operational Analysis on LLM Pre-training with 504 GPUs

LLM 训练集群分析揭示 GPU 故障和 I/O 瓶颈

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-27 04:00

一份技术报告分析了用于大规模 AI 训练的 504 GPU NVIDIA B200 集群的运行数据。该研究利用了 55 天的时间序列数据和来自五个组织协作环境的 73 天日志，发现了一个影响多节点训练会话的存储 I/O 瓶颈。分析还详细介绍了 GPU 故障的检测率，将检查点延迟归因于 NFS RPC 饱和，并评估了多节点故障响应策略，显示自动重试链的成功率为 33.3%，而手动恢复的成功率较低。 AI

影响为理解大规模 AI 训练基础设施的运行挑战和故障模式提供了见解，为未来的系统设计和可靠性提供了信息。

排序理由该集群包含一篇学术论文，详细介绍了 LLM 预训练基础设施的运行分析。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Daemyung Kang, Eunjin Hwang, Hanjeong Lee, HyeokJin Kim, Hyunhoi Koo, Jeongkyu Shin, Jeongseok Kang, Jihyun Kang, Joongi Kim, Junbum Lee, Jungseung Yang, Kyujin Cho, Youngsook Song · 2026-05-27 04:00

从检测到恢复：504 GPUs 训练 LLM 的运行分析

arXiv:2605.09370v2 Announce Type: replace-cross Abstract: Large-scale AI training is now fundamentally a distributed systems problem, and hardware failures have become routine operating conditions rather than rare exceptions. Public operational evidence from production training c…

报道来源 [1]

从检测到恢复：504 GPUs 训练 LLM 的运行分析

相关实体

相关话题