r/LocalLLaMA 上的一位用户正在咨询有关大型语言模型权重量化的高级技术。具体来说,他们质疑为什么 Q8_0 量化中的 32 个值块如果包含异常值就不能被跳过。用户建议,为这些块保留原生值可以显著提高模型准确性,因为只有不到 1% 的子层可能需要被跳过。 AI
排序理由 用户对 LLM 量化的技术方面提出疑问。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →