PulseAugur
实时 07:51:47
English(EN) Running Brand-New Gemma 4 12B on an 8-Year-Old GTX 1080 Ti: Speed, 3 Gotchas, and Why Q8 Beat Q4 on My Own Field

Gemma 4 12B在旧款GTX 1080 Ti上运行,Q8量化修复错误

一位用户详细介绍了他们在旧款GTX 1080 Ti GPU上运行Google新款Gemma 4 12B模型的经验。他们发现Q4量化级别实现了约28 tokens/秒的可用聊天和起草速度,适合单卡8GB显存。然而,对于生物信息学等更详细的任务,Q4版本出现了明显的故障和事实错误,这通过使用Q8量化级别得以解决,尽管速度较慢且需要两块GPU。 AI

影响 证明了较新、较小的模型可以在旧硬件上运行基本任务,但需要更高的量化才能提高准确性。

排序理由 用户在旧硬件上对新模型的评估。[lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. dev.to — LLM tag TIER_1 English(EN) · byeongsoo kang ·

    在八年前的 GTX 1080 Ti 上运行全新的 Gemma 4 12B:速度、3 个陷阱以及为什么 Q8 在我的测试中优于 Q4

    <h2> TL;DR (Quick Answer) </h2> <p>Gemma 4 12B just dropped, so I ran it on a <strong>GTX 1080 Ti</strong> (Pascal, 2017) to see what an 8-year-old card does with a 2026 model. Real numbers, and a few honest surprises:</p> <ul> <li> <strong>Speed: ~28 tok/s</strong> at Q4_K_M on …