PulseAugur
实时 09:00:08
English(EN) BlendServe: Optimizing Offline Inference for Auto-regressive Large Models with Resource-aware Batching

BlendServe系统提升LLM离线推理吞吐量

研究人员开发了BlendServe,一个旨在优化自回归大语言模型离线推理的新系统。BlendServe结合了资源重叠和前缀共享技术,以最大化吞吐量并降低对延迟不敏感应用的成本。评估显示,与vLLM和SGLang等现有标准相比,BlendServe的吞吐量可提高高达1.44倍。 AI

影响 优化LLM推理的成本和吞吐量,可能降低AI应用的运营费用。

排序理由 这是一篇详细介绍用于优化LLM推理的新系统的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Yilong Zhao, Shuo Yang, Kan Zhu, Lianmin Zheng, Baris Kasikci, Yang Zhou, Jiarong Xing, Ion Stoica ·

    BlendServe:通过资源感知批处理优化自回归大模型的离线推理

    arXiv:2411.16102v2 Announce Type: replace Abstract: Offline batch inference, which leverages the flexibility of request batching to achieve higher throughput and lower costs, is becoming more popular for latency-insensitive applications. Meanwhile, recent progress in model capabi…