English(EN) TetriServe: Efficiently Serving Mixed DiT Workloads

TetriServe系统提升DiT模型服务效率

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-19 04:00

研究人员开发了TetriServe，一个旨在高效服务扩散Transformer（DiT）模型的新颖系统，DiT模型在图像生成方面计算量巨大。传统的服务方法难以应对混合工作负载和严格的截止日期，导致GPU利用率低下和未达到服务水平目标（SLO）。TetriServe引入了步级序列并行和基于轮次的调度机制，以根据单个请求的截止日期动态调整并行度，从而提高SLO达成率和GPU利用率。 AI

影响这项研究可能导致更有效地部署生成式AI模型进行图像创建，改善用户体验并降低运营成本。

排序理由该集群包含一篇详细介绍AI模型服务新技术的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Runyu Lu, Shiqi He, Wenxuan Tan, Shenggui Li, Ruofan Wu, Jeff J. Ma, Ang Chen, Mosharaf Chowdhury · 2026-06-19 04:00

TetriServe: Efficiently Serving Mixed DiT Workloads

arXiv:2510.01565v4 Announce Type: replace Abstract: Diffusion Transformer (DiT) models excel at generating high-quality images through iterative denoising steps, but serving them under strict Service Level Objectives (SLOs) is challenging due to their high computational cost, par…

报道来源 [1]

TetriServe: Efficiently Serving Mixed DiT Workloads

相关实体

相关话题