English(EN) Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling

新的 4/6 量化方法通过自适应缩放提升大语言模型精度

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-08 04:00

研究人员开发了一种名为 Four Over Six (4/6) 的新量化方法，以提高 NVFP4 等低精度数值格式在大语言模型中的精度。该技术自适应地将块缩放到更小的 FP4 值，从而减少量化误差，尤其是在接近最大值时。使用 Nemotron 3 Nano 30B-A3B 模型架构进行的实验表明，与现有的 NVFP4 方法相比，4/6 方法能使训练损失更接近 BF16，且计算开销极小。 AI

影响通过减少内存使用和提高速度，同时将精度损失降至最低，从而提高了大语言模型的效率。

排序理由详细介绍模型量化新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Jack Cook, Junxian Guo, Guangxuan Xiao, Yujun Lin, Song Han · 2026-05-08 04:00

Four Over Six：自适应块缩放实现更精确的NVFP4量化

arXiv:2512.02010v4 Announce Type: replace-cross Abstract: As large language models have grown larger, interest has grown in low-precision numerical formats such as NVFP4 as a way to improve speed and reduce memory usage. However, quantizing models to NVFP4 remains challenging as …

报道来源 [1]

Four Over Six：自适应块缩放实现更精确的NVFP4量化

相关实体

相关话题