English(EN) Efficient VQ-QAT and Mixed Vector/Linear quantized Neural Networks

研究人员探索向量量化以实现高效神经网络压缩

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-28 04:00

研究人员开发了三种使用向量量化（VQ）压缩神经网络权重的技术。他们的方法使用余弦相似度进行分配，并通过直通估计器进行Top-1采样，以避免码本坍塌并实现端到端训练。他们还探索了使用可微分神经架构搜索来适应性地选择逐层量化设置以进行进一步优化。虽然不普遍优越，但该方法为基于VQ的压缩权衡提供了有价值的见解。 AI

影响引入了优化模型大小和效率的新方法，可能有助于在资源受限的设备上部署。

排序理由这是一篇详细介绍神经网络压缩新技术的学术论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Terry Gou, Puneet Gupta · 2026-04-28 04:00

高效VQ-QAT和混合向量/线性量化神经网络

arXiv:2604.23172v1 Announce Type: new Abstract: In this work, we developed and tested 3 techniques for vector quantization (VQ) based model weight compression. To mitigate codebook collapse and enable end-to-end training, we adopted cosine similarity-based assignment. Building on…

报道来源 [1]

高效VQ-QAT和混合向量/线性量化神经网络

相关实体

相关话题