一位 r/LocalLLaMA 上的用户正在寻求解释,以了解 Gemma 4 31B 模型不同量化方法比较中出现的意外基准测试结果。他们的测试表明,标准 Q4 量化版本的性能优于较新的 QAT Q4 版本,其中 Q4_K_M 在困惑度方面表现最佳。用户详细介绍了他们的严格测试方法,包括使用的具体硬件、推理引擎和参数,以确保结果不是由于噪声或实验错误。 AI
影响 用户生成的基准测试突显了模型量化质量可能存在的差异,引发了社区对性能指标的讨论。
排序理由 用户进行的基准测试和模型性能分析。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →