PulseAugur
实时 06:47:40
English(EN) BCJR-QAT: A Differentiable Relaxation of Trellis-Coded Weight Quantization

新的BCJR-QAT方法将LLM量化推向每权重2比特

研究人员开发了BCJR-QAT,一种将大型语言模型量化到每权重2比特的新颖方法,这是超越当前训练后量化技术的重大进展。这种新方法使用了维特比算法的可微分松弛,实现了量化感知训练,并在WikiText-2等基准测试中取得了更好的困惑度得分。该方法已被证明可以改进Llama-3.2-1B等模型的性能,显著优于现有方法。 AI

影响 通过减小模型尺寸和计算需求,实现更高效的LLM部署。

排序理由 发表了一篇详细介绍LLM量化新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的BCJR-QAT方法将LLM量化推向每权重2比特

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Venugopalan Iyengar ·

    BCJR-QAT:一种可微分的格码编码权重量化松弛方法

    Trellis-coded quantization sets the current 2-bit post-training frontier for LLMs (QTIP), but pushing below the PTQ ceiling requires quantization-aware training, and QAT on a trellis is obstructed by the non-differentiable Viterbi argmax. We introduce BCJR-QAT, a relaxation that …