一位用户详细介绍了他们在旧款GTX 1080 Ti GPU上运行Google新款Gemma 4 12B模型的经验。他们发现Q4量化级别实现了约28 tokens/秒的可用聊天和起草速度,适合单卡8GB显存。然而,对于生物信息学等更详细的任务,Q4版本出现了明显的故障和事实错误,这通过使用Q8量化级别得以解决,尽管速度较慢且需要两块GPU。 AI
影响 证明了较新、较小的模型可以在旧硬件上运行基本任务,但需要更高的量化才能提高准确性。
排序理由 用户在旧硬件上对新模型的评估。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →