研究人员开发了一个名为NVLUT的新框架,用于在边缘设备上进行能效高的神经网络推理。该框架使用4位NVFP4激活和两级缩放方法,并用紧凑的查找表(LUT)访问取代了传统的乘法。研究发现,块大小为16在准确性和存储之间提供了良好的平衡,并且FP8和FP16权重仅比FP4权重带来微小的改进。与现有方法相比,NVLUT在能耗和硬件面积方面均有显著降低。 AI
影响 使更强大的AI模型能够在低功耗边缘设备上运行,降低能耗和硬件成本。
排序理由 详细介绍AI推理新技术的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →