研究人员开发了 Quant.npu,一个专为移动神经网络处理单元 (NPU) 上的大型语言模型 (LLM) 效率而设计的全静态量化新框架。该方法通过引入可学习的量化参数和旋转矩阵,解决了现有动态量化技术与 NPU 硬件不兼容的问题。Quant.npu 还引入了定制的初始化策略和两阶段优化流程,以确保稳定的训练并适应不同的激活分布,最终在保持与当前最先进方法相当的准确性的同时,将推理延迟降低高达 15.1%。 AI
影响 实现了大型语言模型在移动设备上更高效的部署,可能改善用户体验并扩展设备端 AI 功能。
排序理由 该集群包含一篇学术论文,详细介绍了用于优化 AI 模型推理的新技术框架。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →