研究人员开发了TetriServe,一个旨在高效服务扩散Transformer(DiT)模型的新颖系统,DiT模型在图像生成方面计算量巨大。传统的服务方法难以应对混合工作负载和严格的截止日期,导致GPU利用率低下和未达到服务水平目标(SLO)。TetriServe引入了步级序列并行和基于轮次的调度机制,以根据单个请求的截止日期动态调整并行度,从而提高SLO达成率和GPU利用率。 AI
影响 这项研究可能导致更有效地部署生成式AI模型进行图像创建,改善用户体验并降低运营成本。
排序理由 该集群包含一篇详细介绍AI模型服务新技术的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →