r/LocalLLaMA 子版块的用户正在讨论大型语言模型的优化问题,特别是关于在内存有限的情况下,为什么KV缓存精度有时会在权重精度之前增加。这种将KV缓存设置为8位而权重降低到4位的方法被观察到,但在社区中缺乏明确的解释。 AI
影响 不适用
排序理由 用户对大型语言模型技术优化策略的讨论。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →
r/LocalLLaMA 子版块的用户正在讨论大型语言模型的优化问题,特别是关于在内存有限的情况下,为什么KV缓存精度有时会在权重精度之前增加。这种将KV缓存设置为8位而权重降低到4位的方法被观察到,但在社区中缺乏明确的解释。 AI
影响 不适用
排序理由 用户对大型语言模型技术优化策略的讨论。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →
<!-- SC_OFF --><div class="md"><p>I'm cases where ram is limited I've seen a preference for increasing kvcache precision instead of the weight precision.</p> <p>I.e. 8bit kvcache but only 4bit weights. </p> <p>But I can't seem to find a solid explanation as to why?</p> </div><!--…