一项新研究调查了在 Ascend NPU 上部署 OpenPangu 大型语言模型时,各种训练后量化方法的有效性。研究人员发现,8 位仅权重量化对于 1B 和 7B 参数模型几乎是无损的。然而,4 位量化在 1B 模型上表现出更显著的性能下降,尤其是在推理和编码任务中,而对于 7B 模型则仍然可行。研究还强调了超低精度量化的挑战,大多数 2 位和二值化设置导致性能接近随机。 AI
影响 为选择 OpenPangu 量化设置提供了面向 NPU 的精度图,有助于高效的国内 LLM 部署。
排序理由 该集群包含一篇详细介绍模型量化技术实证研究的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Activation Aware Quantization
- Ascend NPUs
- GPTAQ
- GPTQ
- Huawei Ascend 910B1
- openPangu
- SliM-LLM
- SmoothQuant
- Tong Shi
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →