English(EN) BCJR-QAT: A Differentiable Relaxation of Trellis-Coded Weight Quantization

新的BCJR-QAT方法将LLM量化推向每权重2比特

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-11 14:40

研究人员开发了BCJR-QAT，一种将大型语言模型量化到每权重2比特的新颖方法，这是超越当前训练后量化技术的重大进展。这种新方法使用了维特比算法的可微分松弛，实现了量化感知训练，并在WikiText-2等基准测试中取得了更好的困惑度得分。该方法已被证明可以改进Llama-3.2-1B等模型的性能，显著优于现有方法。 AI

影响通过减小模型尺寸和计算需求，实现更高效的LLM部署。

排序理由发表了一篇详细介绍LLM量化新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Venugopalan Iyengar · 2026-05-11 14:40

BCJR-QAT：一种可微分的格码编码权重量化松弛方法

Trellis-coded quantization sets the current 2-bit post-training frontier for LLMs (QTIP), but pushing below the PTQ ceiling requires quantization-aware training, and QAT on a trellis is obstructed by the non-differentiable Viterbi argmax. We introduce BCJR-QAT, a relaxation that …

报道来源 [1]

BCJR-QAT：一种可微分的格码编码权重量化松弛方法

相关实体

相关话题