PulseAugur
实时 19:44:25
English(EN) Toward Robust and Efficient ML-Based GPU Caching for Modern Inference

新的基于机器学习的GPU缓存算法LCR提升LLM推理速度

研究人员开发了一种名为学习增强LRU (LALRU) 的新GPU缓存算法,旨在提高AI推理期间的效率。该算法将学习到的预测与缓存策略相结合,以确保在预测准确时接近最优,并在预测不准确时限制性能下降。基于LALRU的一个实际实现LCR,在LLM工作负载中表现出显著的改进,将P99首个令牌时间缩短了高达28.3%,并将DLRM工作负载的吞吐量提高了高达24.2%。 AI

影响 提高了LLM和DLRM工作负载的推理效率和吞吐量,可能降低运营成本。

排序理由 学术论文,介绍了一种用于AI推理中GPU缓存的新算法。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的基于机器学习的GPU缓存算法LCR提升LLM推理速度

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Peng Chen, Jiaji Zhang, Hailiang Zhao, Yirong Zhang, Shenyao Chen, Jiahong Yu, Xueyan Tang, Yixuan Wang, Hao Li, Jianping Zou, Gang Xiong, Kingsum Chow, Shuibing He, Shuiguang Deng ·

    Toward Robust and Efficient ML-Based GPU Caching for Modern Inference

    arXiv:2509.20979v2 Announce Type: replace Abstract: In modern GPU inference, cache efficiency remains a major bottleneck, and heuristic policies such as \textsc{LRU} can perform far worse than the offline optimum. Existing learning-based caching systems improve hit rates mainly t…