PulseAugur
实时 18:49:22
English(EN) One Pool, Two Caches: Adaptive HBM Partitioning for Accelerating Generative Recommender Serving

HELM 系统优化 GPU HBM 以降低生成式推荐延迟

研究人员开发了 HELM 系统,旨在通过动态管理嵌入(EMB)和 KV 缓存之间的高带宽内存(HBM)分配来优化生成式推荐模型的性能。现有方法通常无法适应不断变化的工作负载需求,导致错失显著的延迟改进。HELM 利用基于 PPO 的控制器进行自适应内存分配,并采用感知 EMB-KV 的调度器来联合管理 HBM 和请求路由,从而大幅降低了 P99 延迟。 AI

影响 优化了生成式推荐服务的服务基础设施,可能降低延迟并改善用户体验。

排序理由 这是一篇研究论文,详细介绍了一种用于优化推荐模型服务的新颖系统。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

HELM 系统优化 GPU HBM 以降低生成式推荐延迟

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Wenjun Yu, Shuguang Han, Amelie Chi Zhou ·

    One Pool, Two Caches: Adaptive HBM Partitioning for Accelerating Generative Recommender Serving

    arXiv:2605.04450v1 Announce Type: cross Abstract: Generative Recommender (GR) inference places embedding hot caches (EMB) and KV caches in direct competition for limited GPU HBM: allocating more memory to one improves its efficiency but degrades the other. Existing systems optimi…