English(EN) Gemma 4 QAT benchmark results (AMD 7900 XTX): faster, less VRAM, no quality loss

Gemma 4 QAT 模型展示更快的速度、更少的显存、相同的质量

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-05 21:01

一位用户在 AMD 7900 XTX GPU 上对 Google 的 Gemma 4 模型进行了基准测试，比较了标准量化与感知量化训练 (QAT) 版本的性能。结果表明，QAT 版本在各种模型尺寸（包括 12B、26B 和 31B 参数）下，提供了显著的速度提升和更低的显存占用，同时没有牺牲输出质量。具体而言，与标准的 Q8_0 版本相比，12B QAT 模型展示了 45% 的更快生成速度和 83% 的更高吞吐量，同时保持了相同的质量。 AI

影响感知量化训练为更高效的本地 LLM 部署提供了一条途径。

排序理由现有模型的用户生成基准测试结果。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

r/LocalLLaMA TIER_1 English(EN) · /u/IvGranite · 2026-06-05 21:01

Gemma 4 QAT 基准测试结果 (AMD 7900 XTX)：速度更快、显存占用更少、无质量损失

<div class="md"><p>I’ve been doing lots of testing back and forth with this 7900xtx. All of my workloads were relying on qwen3.6 models, which are amazing fwiw, but I wanted some diversity in thought. Namely for Honcho workload tiers and differing cron jobs. Not ev…
Mastodon — mastodon.social TIER_1 Deutsch(DE) · [email protected] · 2026-06-07 04:01

RT @NeoAIForecast: Gemma 4 12B Q4 vs QAT Q4 on an AMD Radeon RX 7800 XT using llama.cpp + ROCm。5次运行的平均值：

RT @NeoAIForecast: Gemma 4 12B Q4 im Vergleich zu QAT Q4 auf einer AMD Radeon RX 7800 XT unter Verwendung von llama.cpp + ROCm. Durchschnittswerte aus 5 Läufen: UD-Q4KXL 6,85 GiB 1274 Prompt-Token/s 42,3 Generierungs-Token/s HumanEval: 75,0 % (123/164). QAT UD-Q4KXL 6,24 GiB 1395…

报道来源 [2]

Gemma 4 QAT 基准测试结果 (AMD 7900 XTX)：速度更快、显存占用更少、无质量损失

RT @NeoAIForecast: Gemma 4 12B Q4 vs QAT Q4 on an AMD Radeon RX 7800 XT using llama.cpp + ROCm。5次运行的平均值：

相关实体

相关话题