(CA) kv-cache : avoid kv cells copies by ggerganov · Pull Request #24277 · ggml-org/llama.cpp

llama.cpp 优化 Gemma-4 的 KV 缓存性能

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-08 12:31

llama.cpp 项目已合并一个优化 KV 缓存性能的拉取请求，特别是针对 Gemma-4 模型。此更改在 b9551 及更高版本中可用，旨在减少与 KV 单元相关的内存复制。该优化于昨天合并，预计将提高在本地硬件上运行的兼容模型的推理速度。 AI

影响 llama.cpp 中的这项优化可能会提高 Gemma-4 在本地硬件上的推理速度，从而改善用户体验。

排序理由这是合并到开源项目中的针对特定模型的代码优化，属于研究/基础设施改进。 [lever_c_demoted from research: ic=1 ai=0.7]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 (CA) · /u/pmttyji · 2026-06-08 12:31

kv-cache：避免 kv 单元格复制 by ggerganov · Pull Request #24277 · ggml-org/llama.cpp

<table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1u06jel/kvcache_avoid_kv_cells_copies_by_ggerganov_pull/"> <img alt="kv-cache : avoid kv cells copies by ggerganov · Pull Request #24277 · ggml-org/llama.cpp" src="https://external-preview.redd.it/ASAii7hUp0-e…