r/LocalLLaMA 的一位 Reddit 用户发现了一种方法,可以通过存储量化值(scale values)的索引而不是量化值本身来减小量化大语言模型的文件大小。该技术在 Qwen 3.5 2B 和 Qwen 3.6 27B 模型上使用 Q4_0 量化进行演示,可以将 Qwen 3.6 27B 模型的大小减小约 318MB。该用户详细介绍了数学过程,展示了如何使用每个 32 个权重块的 11 位索引而不是 16 位量化值来回收大量存储空间,并且在 token 嵌入方面可能进一步节省空间。 AI
影响 可能降低量化 LLM 的存储需求,使其在本地硬件上更易于访问。
排序理由 用户生成的关于 LLM 量化的技术分析和优化建议。[lever_c_demoted from research: ic=1 ai=0.7]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →