PulseAugur
实时 08:11:42
English(EN) How much VRAM do you actually need to run Llama 3 or Gemma locally?

LLM VRAM 需求:超越权重,关注 KV 缓存和模型差异

在本地运行 Llama 3Gemma 等大型语言模型需要仔细考虑 VRAM 使用情况,这不仅包括模型权重,还包括 KV 缓存和开销。KV 缓存对于在文本生成过程中保持上下文至关重要,它会随着提示长度而扩展,并且在更高的上下文窗口下,其占用内存可能远远超过模型权重所需的内存。例如,在 128K 上下文下运行 Llama 3 8B 需要一张 24GB 的显卡,而 Gemma 2 9B 由于 KV 缓存更大,尽管参数数量相似,但比 Llama 3 8B 需要更多的 VRAM。 AI

影响 理解模型权重之外的 VRAM 需求对于优化本地 LLM 部署和管理硬件成本至关重要。

排序理由 该条目详细介绍了运行本地 LLM 的 VRAM 需求的技​​术研究,包括数学分析和模型之间的比较。[lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. dev.to — LLM tag TIER_1 English(EN) · Sathvic Kollu ·

    How much VRAM do you actually need to run Llama 3 or Gemma locally?

    <p>Every few days someone in a local LLM thread asks the same question: "will this run on my 3060?" And the answers are almost always vibes. "Should be fine." "Probably need to quantize." Nobody shows the math, so you download 16GB, load it up, and find out the hard way.</p> <p>I…