研究人员开发了 UltraEP,一个旨在优化大规模专家混合(MoE)模型在机架规模节点上训练和推理的新系统。该系统解决了专家负载不平衡的挑战,这种不平衡可能导致性能瓶颈和内存峰值。UltraEP 通过在微批次和层级基础上实时重新平衡专家,实现了近乎最优的负载均衡,与现有方法相比,显著提高了吞吐量并减少了不平衡。 AI
影响 优化大规模 MoE 模型训练和推理,可能提高 AI 运营的效率并降低成本。
排序理由 该集群包含一篇研究论文,详细介绍了一个用于优化 AI 模型训练和推理的新系统。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →