研究人员推出 CrossPool,这是一种新颖的服务引擎,旨在高效管理多个稀疏专家混合(MoE)大语言模型(LLM)。该系统解决了托管大量冷模型(请求不频繁但仍消耗大量内存的模型)带来的 GPU 内存挑战。CrossPool 将模型的馈送网络(FFN)权重与其 KV 缓存分离,创建了独立的内存池。这允许跨冷模型整合 FFN 权重,并为活动请求动态分配 KV 缓存,从而提高 GPU 内存利用率并支持更长的上下文。 AI
影响 优化了服务多个 LLM 的 GPU 内存使用,可能降低 AI 服务的成本并提高性能。
排序理由 该集群包含一篇详细介绍 LLM 服务新技术的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →