研究人员开发了ViBE,一个用于优化稀疏专家模型(MoE)服务的新框架。ViBE解决了由GPU之间的负载倾斜和硬件变异性相互作用引起的性能瓶颈。通过对每GPU性能和专家激活进行建模,ViBE智能地将专家分配给更快或更慢的设备,以最小化执行时间不平衡。这种方法可将服务水平目标达成率稳定提高14%,并将尾部延迟最多降低45%。 AI
影响 提高大规模稀疏专家模型部署的效率和延迟,可能降低服务成本。
排序理由 该集群包含一篇学术论文,详细介绍了用于优化AI模型服务的新技术框架。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →