研究人员开发了一种名为学习增强LRU (LALRU) 的新GPU缓存算法,旨在提高AI推理期间的效率。该算法将学习到的预测与缓存策略相结合,以确保在预测准确时接近最优,并在预测不准确时限制性能下降。基于LALRU的一个实际实现LCR,在LLM工作负载中表现出显著的改进,将P99首个令牌时间缩短了高达28.3%,并将DLRM工作负载的吞吐量提高了高达24.2%。 AI
影响 提高了LLM和DLRM工作负载的推理效率和吞吐量,可能降低运营成本。
排序理由 学术论文,介绍了一种用于AI推理中GPU缓存的新算法。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →