研究人员开发了GRINQH,一个新颖的训练后量化框架,旨在提高大型语言模型(LLM)生成的效率,特别是在边缘计算方面。该方法根据激活幅度动态地为权重通道分配不同的精度级别,有效地统一了量化和稀疏化,以加速内存密集型的解码阶段。在Llama 3和Qwen3模型上进行测试时,GRINQH表现出优于现有方法的性能,甚至实现了有效的2位生成,并为LLM推理建立了新的最先进的帕累托前沿。 AI
影响 该框架可以显著减少LLM推理所需的计算资源,使先进模型在边缘设备上更加易于访问。
排序理由 该集群包含一篇详细介绍LLM效率新技术的框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →