研究人员推出了一种新的训练后量化框架SOAR,旨在提高NVFP4量化在大型语言模型上的准确性。SOAR采用闭式联合尺度优化(CJSO)通过最小化重建误差来联合优化全局和块级尺度。它还利用解耦尺度搜索(DSS)来分离量化和反量化尺度,从而提高精度。实验表明,SOAR在不增加内存占用或需要新硬件的情况下,实现了优于现有NVFP4方法的准确性。 AI
影响 通过优化量化来提高LLM的效率和准确性,有可能降低计算成本和内存需求。
排序理由 发表了一篇详细介绍模型量化新技术框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →