PulseAugur
实时 21:21:01
English(EN) ICYM: llama.cpp b9455 --SM Tensor KV Cache Fix is MERGED

llama.cpp 合并了多 GPU 张量操作的 KV 缓存修复

llama.cpp 项目已合并一项重要的修复(b9455),该修复解决了在使用多 GPU 设置上的 --sm tensor 标志时,KV 缓存出现的问题。此更新由 Johannes Gaessler 开发,确保在张量展平时保留形状信息,从而使 meta 后端能够正确处理 KV 缓存旋转。该修复通过扩展 meta 后端的功能而不是修改计算图来避免不希望出现的变通方法。 AI

影响 提高了在多 GPU 配置上本地运行 LLM 的用户的性能和稳定性。

排序理由 这是与 LLM 推理相关的开源项目的软件更新/修复,而不是新的模型发布或重大行业事件。[lever_c_demoted from research: ic=1 ai=0.7]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/Bulky-Priority6824 ·

    ICYM: llama.cpp b9455 --SM Tensor KV Cache Fix is MERGED

    <!-- SC_OFF --><div class="md"><p>Them boys can cook, one big fix after another!</p> <p>If you're running --sm tensor on multi-gpu this is the KV cache quantization fix</p> <p><a href="https://github.com/ggml-org/llama.cpp/releases/tag/b9455">https://github.com/ggml-org/llama.cpp…