Gemma 4 QAT models show faster speeds, less VRAM, same quality

By PulseAugur Editorial · [2 sources] · 2026-06-05 21:01

A user benchmarked Google's Gemma 4 models, comparing standard quantization with quantization-aware training (QAT) versions on an AMD 7900 XTX GPU. The results indicate that QAT versions offer significant speedups and reduced VRAM usage without sacrificing output quality across various model sizes, including 12B, 26B, and 31B parameters. Specifically, the 12B QAT model demonstrated a 45% faster generation time and 83% higher throughput compared to its standard Q8_0 counterpart, while maintaining identical quality. AI

IMPACT Quantization-aware training offers a path to more efficient local LLM deployment.

RANK_REASON User-generated benchmark results for an existing model.

Read on r/LocalLLaMA →

AI-generated summary · Google Gemini · from 2 sources. How we write summaries →

Gemma 4 QAT models show faster speeds, less VRAM, same quality

COVERAGE [2]

r/LocalLLaMA TIER_1 English(EN) · /u/IvGranite · 2026-06-05 21:01

Gemma 4 QAT benchmark results (AMD 7900 XTX): faster, less VRAM, no quality loss

<div class="md"><p>I’ve been doing lots of testing back and forth with this 7900xtx. All of my workloads were relying on qwen3.6 models, which are amazing fwiw, but I wanted some diversity in thought. Namely for Honcho workload tiers and differing cron jobs. Not ev…
Mastodon — mastodon.social TIER_1 Deutsch(DE) · [email protected] · 2026-06-07 04:01

RT @NeoAIForecast: Gemma 4 12B Q4 vs QAT Q4 on an AMD Radeon RX 7800 XT using llama.cpp + ROCm. Averages from 5 runs:

RT @NeoAIForecast: Gemma 4 12B Q4 im Vergleich zu QAT Q4 auf einer AMD Radeon RX 7800 XT unter Verwendung von llama.cpp + ROCm. Durchschnittswerte aus 5 Läufen: UD-Q4KXL 6,85 GiB 1274 Prompt-Token/s 42,3 Generierungs-Token/s HumanEval: 75,0 % (123/164). QAT UD-Q4KXL 6,24 GiB 1395…

COVERAGE [2]

Gemma 4 QAT benchmark results (AMD 7900 XTX): faster, less VRAM, no quality loss

RT @NeoAIForecast: Gemma 4 12B Q4 vs QAT Q4 on an AMD Radeon RX 7800 XT using llama.cpp + ROCm. Averages from 5 runs:

RELATED ENTITIES

RELATED TOPICS