一位开发者在 llama.cpp 项目的一个分支 BeeLlama.cpp 中实现了华为的 KVarN KV 缓存量化技术。该实现允许用户将 KV 缓存压缩 3-5 倍,旨在减少 VRAM 使用量,同时不显著影响模型性能。初步基准测试表明,KVarN 在仅使用 3.5 位的情况下提供了与 4 位量化相当的质量,但速度提升仍在开发中。 AI
影响 能够更有效地利用大型语言模型的 VRAM,有可能在消费级硬件上实现更长的上下文或更大的模型。
排序理由 这是社区对一种新的 KV 缓存量化技术实现的基准测试,而非前沿模型实验室的发布。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →