English(EN) One Pool, Two Caches: Adaptive HBM Partitioning for Accelerating Generative Recommender Serving

HELM 系统优化 GPU HBM 以降低生成式推荐延迟

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-07 04:00

研究人员开发了 HELM 系统，旨在通过动态管理嵌入（EMB）和 KV 缓存之间的高带宽内存（HBM）分配来优化生成式推荐模型的性能。现有方法通常无法适应不断变化的工作负载需求，导致错失显著的延迟改进。HELM 利用基于 PPO 的控制器进行自适应内存分配，并采用感知 EMB-KV 的调度器来联合管理 HBM 和请求路由，从而大幅降低了 P99 延迟。 AI

影响优化了生成式推荐服务的服务基础设施，可能降低延迟并改善用户体验。

排序理由这是一篇研究论文，详细介绍了一种用于优化推荐模型服务的新颖系统。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

A100

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Wenjun Yu, Shuguang Han, Amelie Chi Zhou · 2026-05-07 04:00

一个池，两个缓存：自适应HBM分区加速生成式推荐服务

arXiv:2605.04450v1 Announce Type: cross Abstract: Generative Recommender (GR) inference places embedding hot caches (EMB) and KV caches in direct competition for limited GPU HBM: allocating more memory to one improves its efficiency but degrades the other. Existing systems optimi…

报道来源 [1]

一个池，两个缓存：自适应HBM分区加速生成式推荐服务

相关实体

相关话题