PulseAugur
实时 12:58:20
English(EN) ViBE: Co-Optimizing Workload Skew and Hardware Variability for MoE Serving

ViBE框架通过平衡负载和硬件优化稀疏专家模型服务

研究人员开发了ViBE,一个用于优化稀疏专家模型(MoE)服务的新框架。ViBE解决了由GPU之间的负载倾斜和硬件变异性相互作用引起的性能瓶颈。通过对每GPU性能和专家激活进行建模,ViBE智能地将专家分配给更快或更慢的设备,以最小化执行时间不平衡。这种方法可将服务水平目标达成率稳定提高14%,并将尾部延迟最多降低45%。 AI

影响 提高大规模稀疏专家模型部署的效率和延迟,可能降低服务成本。

排序理由 该集群包含一篇学术论文,详细介绍了用于优化AI模型服务的新技术框架。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Seokjin Go, Marko Scrbak, Ephrem Wu, Srilatha Manne, Divya Mahajan ·

    ViBE: Co-Optimizing Workload Skew and Hardware Variability for MoE Serving

    arXiv:2606.00735v1 Announce Type: cross Abstract: In distributed Mixture-of-Experts (MoE) inference, input-dependent token routing interacts with GPU performance variability to create persistent stragglers under synchronized execution, where the slowest GPU determines layer laten…