English(EN) We built a calibration-aware Q4_K_M quant of Qwen3.5 0.8B that recovers 96.5% of the BF16 gap vs pure llama.cpp Q4_K_M (SpectralQuant)

SpectralQuant 方法在 Qwen3.5 模型中恢复了 96.5% 的 BF16 性能差距

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-27 11:29

Spectral Labs 开发了一种名为 SpectralQuant 的新量化方法，旨在提高小型模型足迹的性能。他们发布的第一个版本是一个量化到 Q4_K_M 的 Qwen3.5 0.8B 模型，据称与完整的 bfloat16 精度模型相比，恢复了 96.5% 的性能差距。该方法与标准量化不同，它使用校准信号来保护行为上最敏感的权重，从而减少关键区域的量化误差。 AI

影响这项新的量化技术可以实现大型语言模型在资源受限硬件上的更高效部署。

排序理由该集群描述了一种新的量化方法及其在特定模型上的应用，属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

SpectralQuant 方法在 Qwen3.5 模型中恢复了 96.5% 的 BF16 性能差距

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/RevealIndividual7567 · 2026-06-27 11:29

我们构建了 Qwen3.5 0.8B 的校准感知 Q4_K_M 量化模型，与纯 llama.cpp Q4_K_M (SpectralQuant) 相比，恢复了 96.5% 的 BF16 差距

<table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1uh0clv/we_built_a_calibrationaware_q4_k_m_quant_of/"> <img alt="We built a calibration-aware Q4_K_M quant of Qwen3.5 0.8B that recovers 96.5% of the BF16 gap vs pure llama.cpp Q4_K_M (SpectralQuant)" src="htt…

报道来源 [1]

我们构建了 Qwen3.5 0.8B 的校准感知 Q4_K_M 量化模型，与纯 llama.cpp Q4_K_M (SpectralQuant) 相比，恢复了 96.5% 的 BF16 差距

相关实体

相关话题