English(EN) Quant.npu: Enabling Efficient Mobile NPU Inference for on-device LLMs via Fully Static Quantization

新的量化框架提升设备端 LLM 性能

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-22 04:00

研究人员开发了 Quant.npu，一个专为移动神经网络处理单元 (NPU) 上的大型语言模型 (LLM) 效率而设计的全静态量化新框架。该方法通过引入可学习的量化参数和旋转矩阵，解决了现有动态量化技术与 NPU 硬件不兼容的问题。Quant.npu 还引入了定制的初始化策略和两阶段优化流程，以确保稳定的训练并适应不同的激活分布，最终在保持与当前最先进方法相当的准确性的同时，将推理延迟降低高达 15.1%。 AI

影响实现了大型语言模型在移动设备上更高效的部署，可能改善用户体验并扩展设备端 AI 功能。

排序理由该集群包含一篇学术论文，详细介绍了用于优化 AI 模型推理的新技术框架。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Jinghe Zhang, Daliang Xu, Chenghua Wang, Weikai Xie, Tao Qi, Yun Ma, Mengwei Xu, Gang Huang · 2026-05-22 04:00

Quant.npu：通过全静态量化实现高效移动NPU推理，支持设备端LLM

arXiv:2605.20295v1 Announce Type: cross Abstract: Large language models (LLMs) are increasingly deployed on mobile devices, where Neural Processing Units (NPUs) necessitate fully static quantization for optimal inference efficiency. However, existing post-training quantization (P…

报道来源 [1]

Quant.npu：通过全静态量化实现高效移动NPU推理，支持设备端LLM

相关实体

相关话题