PulseAugur
实时 23:35:50
English(EN) WarmServe: Enabling One-for-Many GPU Prewarming for Multi-LLM Serving

WarmServe 系统预热 GPU 以加快多 LLM 服务速度

研究人员开发了 WarmServe,一个旨在提高在共享 GPU 集群上服务多个大型语言模型 (LLM) 效率的新系统。WarmServe 采用一对多的 GPU 预热策略,根据预测的工作负载模式主动加载模型参数。这种方法旨在减少多 LLM 服务系统中常见的首个 token 时间 (TTFT) 降低问题。评估表明,与现有方法相比,WarmServe 可以显著减少尾部 TTFT 并提高请求吞吐量。 AI

影响 优化 LLM 服务基础设施,可能降低已部署模型的延迟并提高吞吐量。

排序理由 该集群包含一篇详细介绍 LLM 服务基础设施新系统的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Chiheng Lou, Sheng Qi, Rui Kang, Yong Zhang, Chen Sun, Pengcheng Wang, Xuanzhe Liu, Xin Jin ·

    WarmServe: Enabling One-for-Many GPU Prewarming for Multi-LLM Serving

    arXiv:2512.09472v2 Announce Type: replace-cross Abstract: Deploying multiple models within shared GPU clusters is a key strategy to improve resource efficiency in large language model (LLM) serving. Existing multi-LLM serving systems improve GPU utilization at the cost of degrade…