研究人员开发了 HELM 系统,旨在通过动态管理嵌入(EMB)和 KV 缓存之间的高带宽内存(HBM)分配来优化生成式推荐模型的性能。现有方法通常无法适应不断变化的工作负载需求,导致错失显著的延迟改进。HELM 利用基于 PPO 的控制器进行自适应内存分配,并采用感知 EMB-KV 的调度器来联合管理 HBM 和请求路由,从而大幅降低了 P99 延迟。 AI
影响 优化了生成式推荐服务的服务基础设施,可能降低延迟并改善用户体验。
排序理由 这是一篇研究论文,详细介绍了一种用于优化推荐模型服务的新颖系统。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →