English(EN) I implemented KVarN in my llama.cpp fork and ran KLD benchmarks. It's promising!

开发者在 llama.cpp 分支中实现 KVarN KV 缓存压缩

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-05 13:48

一位开发者在 llama.cpp 项目的一个分支 BeeLlama.cpp 中实现了华为的 KVarN KV 缓存量化技术。该实现允许用户将 KV 缓存压缩 3-5 倍，旨在减少 VRAM 使用量，同时不显著影响模型性能。初步基准测试表明，KVarN 在仅使用 3.5 位的情况下提供了与 4 位量化相当的质量，但速度提升仍在开发中。 AI

影响能够更有效地利用大型语言模型的 VRAM，有可能在消费级硬件上实现更长的上下文或更大的模型。

排序理由这是社区对一种新的 KV 缓存量化技术实现的基准测试，而非前沿模型实验室的发布。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/Anbeeld · 2026-06-05 13:48

我在 llama.cpp 的 fork 中实现了 KVarN 并运行了 KLD 基准测试。很有前景！

<div class="md"><p>Saw this post here yesterday: <a href="https://www.reddit.com/r/LocalLLaMA/comments/1twptw2/kvarn_new_kvcache_quant_from_huawei_35_kv_cache/">KVarN: new KV-cache quant from Huawei. 3–5× KV cache compression with actual speed-up instead of slow-do…

报道来源 [1]

我在 llama.cpp 的 fork 中实现了 KVarN 并运行了 KLD 基准测试。很有前景！

相关实体

相关话题