研究人员开发了 DuetServe,一个旨在优化大型语言模型 (LLM) 服务的新框架。该系统通过智能管理 LLM 推理的独立 prefill 和 decode 阶段,解决了高吞吐量与低延迟之间的平衡挑战。DuetServe 在 SM (Streaming Multiprocessor) 层面动态划分 GPU 资源,仅在必要时提供隔离,防止两个阶段之间的干扰,并避免了复制模型的低效率。 AI
影响 提高了 LLM 服务效率,可能降低已部署模型的延迟并提高吞吐量。
排序理由 该集群包含一篇详细介绍 LLM 服务新技术框架的研究论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →