PulseAugur
实时 15:44:51
English(EN) I implemented KVarN in my llama.cpp fork and ran KLD benchmarks. It's promising!

开发者在 llama.cpp 分支中实现 KVarN KV 缓存压缩

一位开发者在 llama.cpp 项目的一个分支 BeeLlama.cpp 中实现了华为的 KVarN KV 缓存量化技术。该实现允许用户将 KV 缓存压缩 3-5 倍,旨在减少 VRAM 使用量,同时不显著影响模型性能。初步基准测试表明,KVarN 在仅使用 3.5 位的情况下提供了与 4 位量化相当的质量,但速度提升仍在开发中。 AI

影响 能够更有效地利用大型语言模型的 VRAM,有可能在消费级硬件上实现更长的上下文或更大的模型。

排序理由 这是社区对一种新的 KV 缓存量化技术实现的基准测试,而非前沿模型实验室的发布。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/Anbeeld ·

    I implemented KVarN in my llama.cpp fork and ran KLD benchmarks. It's promising!

    <!-- SC_OFF --><div class="md"><p>Saw this post here yesterday: <a href="https://www.reddit.com/r/LocalLLaMA/comments/1twptw2/kvarn_new_kvcache_quant_from_huawei_35_kv_cache/">KVarN: new KV-cache quant from Huawei. 3–5× KV cache compression with actual speed-up instead of slow-do…