研究人员开发了HetCCL,一个旨在提高用于训练大型语言模型的异构计算集群中集体通信效率的新框架。该框架通过实现不同供应商硬件之间高效的点对点传输,减少了开销并消除了主机-设备内存复制成本,从而解决了现有系统的局限性。HetCCL创新的边界通信器机制和分层拓扑抽象允许进行供应商无关的归约操作和优化的数据传输,从而带来显著的带宽提升和更快的端到端训练时间。 AI
影响 能够在外围硬件设置上更高效、更经济地训练大型语言模型。
排序理由 该集群包含一篇详细介绍用于改进LLM训练基础设施的新框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →