English(EN) Maybe KV cache offload to RAM isn't bad

KV 缓存 RAM 卸载为本地 LLM 提供了可行的替代方案

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-05 16:23

一位 r/LocalLLaMA 用户探讨了在本地运行大型语言模型时，将 KV 缓存卸载到系统 RAM 而非 VRAM 的性能影响。通过在 llama.cpp 中使用 `-nkvo` 标志，用户发现他们可以在 GPU 上容纳更大的模型和上下文窗口，同时速度损失很小。这项技术允许使用更高质量的 KV 缓存 (f16)，而不会显著牺牲生成速度，使其成为 VRAM 有限的用户的可行选择。 AI

影响使 VRAM 有限的用户能够以最小的性能损失运行更大的模型和更长的上下文。

排序理由用户生成的关于 LLM 推理优化的技术探索。[lever_c_demoted from research: ic=1 ai=0.7]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/bobaburger · 2026-06-05 16:23

也许 KV 缓存卸载到 RAM 并非坏事

<div class="md"><p>So, llama.cpp has the <code>-nkvo</code> (<code>--no-kv-offload</code>) option to offload KV cache to RAM instead of VRAM. Many people avoid this because obviously it hurts performance.</p> <p>But every option exists with a trade off. And in my c…

报道来源 [1]

也许 KV 缓存卸载到 RAM 并非坏事

相关实体

相关话题