English(EN) BlendServe: Optimizing Offline Inference for Auto-regressive Large Models with Resource-aware Batching

BlendServe系统提升LLM离线推理吞吐量

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-09 04:00

研究人员开发了BlendServe，一个旨在优化自回归大语言模型离线推理的新系统。BlendServe结合了资源重叠和前缀共享技术，以最大化吞吐量并降低对延迟不敏感应用的成本。评估显示，与vLLM和SGLang等现有标准相比，BlendServe的吞吐量可提高高达1.44倍。 AI

影响优化LLM推理的成本和吞吐量，可能降低AI应用的运营费用。

排序理由这是一篇详细介绍用于优化LLM推理的新系统的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Yilong Zhao, Shuo Yang, Kan Zhu, Lianmin Zheng, Baris Kasikci, Yang Zhou, Jiarong Xing, Ion Stoica · 2026-06-09 04:00

BlendServe：通过资源感知批处理优化自回归大模型的离线推理

arXiv:2411.16102v2 Announce Type: replace Abstract: Offline batch inference, which leverages the flexibility of request batching to achieve higher throughput and lower costs, is becoming more popular for latency-insensitive applications. Meanwhile, recent progress in model capabi…