English(EN) Gemma 4 31B QAT Q4 vs standard Q4 — Top1 KLD benchmark results have me confused. Someone please explain or poke holes in this.

Gemma 4 31B 量化测试结果令人困惑

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-07 00:49

一位 r/LocalLLaMA 上的用户正在寻求解释，以了解 Gemma 4 31B 模型不同量化方法比较中出现的意外基准测试结果。他们的测试表明，标准 Q4 量化版本的性能优于较新的 QAT Q4 版本，其中 Q4_K_M 在困惑度方面表现最佳。用户详细介绍了他们的严格测试方法，包括使用的具体硬件、推理引擎和参数，以确保结果不是由于噪声或实验错误。 AI

影响用户生成的基准测试突显了模型量化质量可能存在的差异，引发了社区对性能指标的讨论。

排序理由用户进行的基准测试和模型性能分析。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/bitslizer · 2026-06-07 00:49

Gemma 4 31B QAT Q4 vs standard Q4 — Top1 KLD 基准测试结果让我感到困惑。有人能解释一下或找出其中的漏洞吗？

<div class="md"><p>I'll be upfront: I vibe-benched and vibe-reported this with Claude Sonnet 4.6, but I reviewed and edited everything before posting (too lazy to take out all the AI EM dash —), so hopefully nobody considers this AI slop. And more importantly, I ge…

报道来源 [1]

Gemma 4 31B QAT Q4 vs standard Q4 — Top1 KLD 基准测试结果让我感到困惑。有人能解释一下或找出其中的漏洞吗？

相关实体

相关话题