English(EN) how do you decide between q4 and q5 on a 70b when 24gb is the cap?

LLaMA用户讨论在24GB GPU上运行70B模型的Q4与Q5量化选择

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 02:46

在 r/LocalLLaMA 子版块上，一位用户正在寻求关于如何在24GB GPU显存的限制下，为700亿参数模型选择Q4和Q5量化级别（quantization levels）的建议。用户正在权衡Q5带来的轻微性能提升与超出显存限制的风险，尤其是在代码生成任务中。用户希望从其他本地运行大型模型的人那里获得实用的策略来做出这个决定。 AI

影响用户讨论运行大型本地模型的实际权衡，影响硬件选择和性能预期。

排序理由用户讨论模型量化权衡。

在 r/LocalLLaMA 阅读 →

其他

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/Practical_Low29 · 2026-05-26 02:46

当 24GB 是上限时，如何在 70B 上选择 q4 和 q5？

<div class="md"><p>ran into the q4 vs q5 wall again this morning. 70b model. 24gb card. q4 fits with margin, q5 fits if i kill everything else on the gpu and pray.</p> <p>did the math on actual quality difference for my use case (mostly code generation on a private…

报道来源 [1]

当 24GB 是上限时，如何在 70B 上选择 q4 和 q5？

相关实体

相关话题