一种适用于 RDNA3 GPU 上的 llama.cpp 的新方法,通过将 K 值打包成 8 位整数,然后由 GPU 的原生 `sudot4` 指令处理,显著减少了 KV 缓存的 VRAM 使用量。这种方法在 128k 上下文时可节省约 1.42 GiB 的 VRAM,可能允许更大的上下文适应可用内存。质量指标,包括 Kullback-Leibler 散度和困惑度,与标准的 FP16 K 值相比,仅有微小的下降,表明性能几乎无损。 AI
影响 优化本地 LLM 推理,可能在消费级硬件上实现更大的上下文窗口。
排序理由 这是针对特定软件和硬件组合的技术优化,并非新的模型发布或重大行业事件。[lever_c_demoted from research: ic=1 ai=0.7]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →