English(EN) Running Brand-New Gemma 4 12B on an 8-Year-Old GTX 1080 Ti: Speed, 3 Gotchas, and Why Q8 Beat Q4 on My Own Field

Gemma 4 12B在旧款GTX 1080 Ti上运行，Q8量化修复错误

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-05 04:41

一位用户详细介绍了他们在旧款GTX 1080 Ti GPU上运行Google新款Gemma 4 12B模型的经验。他们发现Q4量化级别实现了约28 tokens/秒的可用聊天和起草速度，适合单卡8GB显存。然而，对于生物信息学等更详细的任务，Q4版本出现了明显的故障和事实错误，这通过使用Q8量化级别得以解决，尽管速度较慢且需要两块GPU。 AI

影响证明了较新、较小的模型可以在旧硬件上运行基本任务，但需要更高的量化才能提高准确性。

排序理由用户在旧硬件上对新模型的评估。[lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

dev.to — LLM tag TIER_1 English(EN) · byeongsoo kang · 2026-06-05 04:41

在八年前的 GTX 1080 Ti 上运行全新的 Gemma 4 12B：速度、3 个陷阱以及为什么 Q8 在我的测试中优于 Q4

<h2> TL;DR (Quick Answer) </h2> <p>Gemma 4 12B just dropped, so I ran it on a <strong>GTX 1080 Ti</strong> (Pascal, 2017) to see what an 8-year-old card does with a 2026 model. Real numbers, and a few honest surprises:</p> <ul> <li> <strong>Speed: ~28 tok/s</strong> at Q4_K_M on …

报道来源 [1]

在八年前的 GTX 1080 Ti 上运行全新的 Gemma 4 12B：速度、3 个陷阱以及为什么 Q8 在我的测试中优于 Q4

相关实体

相关话题