PulseAugur
实时 16:18:33
实体 Lablup

Lablup

PulseAugur coverage of Lablup — every cluster mentioning Lablup across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_53804 ·

    LLM 训练集群分析揭示 GPU 故障和 I/O 瓶颈

    一份技术报告分析了用于大规模 AI 训练的 504 GPU NVIDIA B200 集群的运行数据。该研究利用了 55 天的时间序列数据和来自五个组织协作环境的 73 天日志,发现了一个影响多节点训练会话的存储 I/O 瓶颈。分析还详细介绍了 GPU 故障的检测率,将检查点延迟归因于 NFS RPC 饱和,并评估了多节点故障响应策略,显示自动重试链的成功率为 33.3%,而手动恢复的成功率较低。