English(EN) Ternary Mamba: Grouped Quantization-Aware Training of W1.58A16 State Space Models

Ternary Mamba通过知识蒸馏和QAT实现3.61倍压缩

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-16 16:18

研究人员开发了一种压缩状态空间模型（SSMs）如Mamba-2的新方法，显著减小了其在边缘部署时的内存占用。通过采用分组量化感知训练（QAT）并结合来自预训练FP16模型的知识蒸馏，他们将Mamba-2 1.3B压缩至744 MB，减少了3.61倍。该方法在比以往方法更小的token预算下实现了具有竞争力的零样本准确率，同时还识别出一种新颖的、仅存在于预训练SSM的QAT中的不稳定性，称为“零比率崩溃”。 AI

影响通过显著减小内存占用，使得状态空间模型在边缘设备上更高效地部署。

排序理由该集群描述了一篇详细介绍新模型压缩方法的最新研究论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Ramprasath Ganesaraja, Sahil Dilip Panse, Swathika N · 2026-06-17 04:00

Ternary Mamba：W1.58A16状态空间模型的组量化感知训练

arXiv:2606.18114v1 Announce Type: cross Abstract: State Space Models (SSMs) such as Mamba-2 offer linear-time inference but their memory footprint limits edge deployment. Prior ternary SSM work (Slender-Mamba) trains from scratch on 150B tokens; we show a pretrained checkpoint su…
arXiv cs.AI TIER_1 English(EN) · Swathika N · 2026-06-16 16:18

Ternary Mamba: W1.58A16 状态空间模型的量化感知分组训练

State Space Models (SSMs) such as Mamba-2 offer linear-time inference but their memory footprint limits edge deployment. Prior ternary SSM work (Slender-Mamba) trains from scratch on 150B tokens; we show a pretrained checkpoint suffices, reducing the marginal token budget by 1,00…

报道来源 [2]

Ternary Mamba：W1.58A16状态空间模型的组量化感知训练

Ternary Mamba: W1.58A16 状态空间模型的量化感知分组训练

相关实体

相关话题