PulseAugur
实时 17:45:44
English(EN) From Detection to Recovery: Operational Analysis on LLM Pre-training with 504 GPUs

LLM 训练集群分析揭示 GPU 故障和 I/O 瓶颈

一份技术报告分析了用于大规模 AI 训练的 504 GPU NVIDIA B200 集群的运行数据。该研究利用了 55 天的时间序列数据和来自五个组织协作环境的 73 天日志,发现了一个影响多节点训练会话的存储 I/O 瓶颈。分析还详细介绍了 GPU 故障的检测率,将检查点延迟归因于 NFS RPC 饱和,并评估了多节点故障响应策略,显示自动重试链的成功率为 33.3%,而手动恢复的成功率较低。 AI

影响 为理解大规模 AI 训练基础设施的运行挑战和故障模式提供了见解,为未来的系统设计和可靠性提供了信息。

排序理由 该集群包含一篇学术论文,详细介绍了 LLM 预训练基础设施的运行分析。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

LLM 训练集群分析揭示 GPU 故障和 I/O 瓶颈

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Daemyung Kang, Eunjin Hwang, Hanjeong Lee, HyeokJin Kim, Hyunhoi Koo, Jeongkyu Shin, Jeongseok Kang, Jihyun Kang, Joongi Kim, Junbum Lee, Jungseung Yang, Kyujin Cho, Youngsook Song ·

    从检测到恢复:504 GPUs 训练 LLM 的运行分析

    arXiv:2605.09370v2 Announce Type: replace-cross Abstract: Large-scale AI training is now fundamentally a distributed systems problem, and hardware failures have become routine operating conditions rather than rare exceptions. Public operational evidence from production training c…