English(EN) ViBE: Co-Optimizing Workload Skew and Hardware Variability for MoE Serving

ViBE框架通过平衡负载和硬件优化稀疏专家模型服务

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员开发了ViBE，一个用于优化稀疏专家模型（MoE）服务的新框架。ViBE解决了由GPU之间的负载倾斜和硬件变异性相互作用引起的性能瓶颈。通过对每GPU性能和专家激活进行建模，ViBE智能地将专家分配给更快或更慢的设备，以最小化执行时间不平衡。这种方法可将服务水平目标达成率稳定提高14%，并将尾部延迟最多降低45%。 AI

影响提高大规模稀疏专家模型部署的效率和延迟，可能降低服务成本。

排序理由该集群包含一篇学术论文，详细介绍了用于优化AI模型服务的新技术框架。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Seokjin Go, Marko Scrbak, Ephrem Wu, Srilatha Manne, Divya Mahajan · 2026-06-02 04:00

ViBE: Co-Optimizing Workload Skew and Hardware Variability for MoE Serving

arXiv:2606.00735v1 Announce Type: cross Abstract: In distributed Mixture-of-Experts (MoE) inference, input-dependent token routing interacts with GPU performance variability to create persistent stragglers under synchronized execution, where the slowest GPU determines layer laten…

报道来源 [1]

ViBE: Co-Optimizing Workload Skew and Hardware Variability for MoE Serving

相关实体

相关话题