研究人员开发了BlendServe,一个旨在优化自回归大语言模型离线推理的新系统。BlendServe结合了资源重叠和前缀共享技术,以最大化吞吐量并降低对延迟不敏感应用的成本。评估显示,与vLLM和SGLang等现有标准相比,BlendServe的吞吐量可提高高达1.44倍。 AI
影响 优化LLM推理的成本和吞吐量,可能降低AI应用的运营费用。
排序理由 这是一篇详细介绍用于优化LLM推理的新系统的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →