English(EN) ICYM: llama.cpp b9455 --SM Tensor KV Cache Fix is MERGED

llama.cpp 合并了多 GPU 张量操作的 KV 缓存修复

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-01 20:08

llama.cpp 项目已合并一项重要的修复（b9455），该修复解决了在使用多 GPU 设置上的 --sm tensor 标志时，KV 缓存出现的问题。此更新由 Johannes Gaessler 开发，确保在张量展平时保留形状信息，从而使 meta 后端能够正确处理 KV 缓存旋转。该修复通过扩展 meta 后端的功能而不是修改计算图来避免不希望出现的变通方法。 AI

影响提高了在多 GPU 配置上本地运行 LLM 的用户的性能和稳定性。

排序理由这是与 LLM 推理相关的开源项目的软件更新/修复，而不是新的模型发布或重大行业事件。[lever_c_demoted from research: ic=1 ai=0.7]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/Bulky-Priority6824 · 2026-06-01 20:08

ICYM: llama.cpp b9455 --SM Tensor KV Cache Fix is MERGED

<div class="md">Them boys can cook, one big fix after another! If you're running --sm tensor on multi-gpu this is the KV cache quantization fix <a href="https://github.com/ggml-org/llama.cpp/releases/tag/b9455">https://github.com/ggml-org/llama.cpp…

报道来源 [1]

ICYM: llama.cpp b9455 --SM Tensor KV Cache Fix is MERGED

相关实体

相关话题