PulseAugur
实时 09:30:33
English(EN) SOAR: Scale Optimization for Accurate Reconstruction in NVFP4 Quantization

SOAR框架通过新颖的NVFP4量化提升LLM准确性

研究人员推出了一种新的训练后量化框架SOAR,旨在提高NVFP4量化在大型语言模型上的准确性。SOAR采用闭式联合尺度优化(CJSO)通过最小化重建误差来联合优化全局和块级尺度。它还利用解耦尺度搜索(DSS)来分离量化和反量化尺度,从而提高精度。实验表明,SOAR在不增加内存占用或需要新硬件的情况下,实现了优于现有NVFP4方法的准确性。 AI

影响 通过优化量化来提高LLM的效率和准确性,有可能降低计算成本和内存需求。

排序理由 发表了一篇详细介绍模型量化新技术框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

SOAR框架通过新颖的NVFP4量化提升LLM准确性

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Yulun Zhang ·

    SOAR: Scale Optimization for Accurate Reconstruction in NVFP4 Quantization

    NVFP4 has recently emerged as an efficient 4-bit microscaling format for large language models (LLMs), offering superior numerical fidelity with native hardware support. However, existing methods often yield suboptimal performance due to inflexible scale selection and the coupled…