PulseAugur
实时 22:02:30
English(EN) Quant.npu: Enabling Efficient Mobile NPU Inference for on-device LLMs via Fully Static Quantization

新的量化框架提升设备端 LLM 性能

研究人员开发了 Quant.npu,一个专为移动神经网络处理单元 (NPU) 上的大型语言模型 (LLM) 效率而设计的全静态量化新框架。该方法通过引入可学习的量化参数和旋转矩阵,解决了现有动态量化技术与 NPU 硬件不兼容的问题。Quant.npu 还引入了定制的初始化策略和两阶段优化流程,以确保稳定的训练并适应不同的激活分布,最终在保持与当前最先进方法相当的准确性的同时,将推理延迟降低高达 15.1%。 AI

影响 实现了大型语言模型在移动设备上更高效的部署,可能改善用户体验并扩展设备端 AI 功能。

排序理由 该集群包含一篇学术论文,详细介绍了用于优化 AI 模型推理的新技术框架。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Jinghe Zhang, Daliang Xu, Chenghua Wang, Weikai Xie, Tao Qi, Yun Ma, Mengwei Xu, Gang Huang ·

    Quant.npu: Enabling Efficient Mobile NPU Inference for on-device LLMs via Fully Static Quantization

    arXiv:2605.20295v1 Announce Type: cross Abstract: Large language models (LLMs) are increasingly deployed on mobile devices, where Neural Processing Units (NPUs) necessitate fully static quantization for optimal inference efficiency. However, existing post-training quantization (P…