PulseAugur
实时 15:19:13
English(EN) HetCCL: Enabling Collective Communication For Mixed-Vendor Heterogeneous Clusters

新框架HetCCL提升混合硬件集群上的LLM训练效率

研究人员开发了HetCCL,一个旨在提高用于训练大型语言模型的异构计算集群中集体通信效率的新框架。该框架通过实现不同供应商硬件之间高效的点对点传输,减少了开销并消除了主机-设备内存复制成本,从而解决了现有系统的局限性。HetCCL创新的边界通信器机制和分层拓扑抽象允许进行供应商无关的归约操作和优化的数据传输,从而带来显著的带宽提升和更快的端到端训练时间。 AI

影响 能够在外围硬件设置上更高效、更经济地训练大型语言模型。

排序理由 该集群包含一篇详细介绍用于改进LLM训练基础设施的新框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Yuejie Wang, Tao Chang, Yuanyuan Zhao, Yulong Ao, Zeyu Gu, Zhiyu Li, Yanmin Jia, Yan Zhang, Mingjun Zhang, He Liu, Yongzhe He, Yonghua Lin, Guyue Liu ·

    HetCCL:为混合供应商异构集群实现集体通信

    arXiv:2605.31000v1 Announce Type: cross Abstract: Training Large Language Models (LLMs) on heterogeneous clusters presents significant challenges for collective communication, as hardware from multiple vendors introduces diverse network and computational characteristics. Existing…