Qwen3.6-35B 模型量化显示 FP8 质量不如 INT8，NVFP4 是谎言

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-25 22:41

Reddit 的 LocalLLaMA 社区的一位用户分享了关于 Qwen3.6-35B 模型的研究结果，重点关注了 Kullback-Leibler (KLD) 散度指标在 INT8、FP8 和 NVFP4 等不同量化格式下的表现。使用修改后的 VLLM 框架进行的分析表明，FP8 和 NVFP4 格式虽然可能速度更快，但质量可能不如 INT8。用户强调，量化格式的选择应与具体用例相匹配，平衡准确性、速度和 GPU 兼容性。 AI

影响提供了关于量化权衡的见解，指导操作员为特定的硬件和性能需求选择最佳格式。

排序理由该集群讨论了模型量化格式及其性能影响的技术分析，属于研究范畴。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

Qwen3.6-35B 模型量化显示 FP8 质量不如 INT8，NVFP4 是谎言

报道来源 [1]

r/LocalLLaMA TIER_1 Deutsch(DE) · /u/Phaelon74 · 2026-04-25 22:41

Qwen3.6-35B-A3B KLDs - INTs and NVFPs

<table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1svq8lm/qwen3635ba3b_klds_ints_and_nvfps/"> <img alt="Qwen3.6-35B-A3B KLDs - INTs and NVFPs" src="https://preview.redd.it/c76w57d1yexg1.png?width=140&height=83&auto=webp&s=33c0eae8633265e0074c8e89a…

报道来源 [1]

Qwen3.6-35B-A3B KLDs - INTs and NVFPs

相关实体

相关话题