研究人员开发了HEAPr,一种旨在减少混合专家(MoE)大型语言模型内存占用的新剪枝算法。与之前剪枝整个专家的旧方法不同,HEAPr将专家分解为更小的原子单元。这种方法利用原子专家输出的二阶信息,显著降低了计算复杂度,并实现了在精度损失最小的情况下进行更精确的压缩。在DeepSeek MoE和Qwen MoE等模型上的实验表明,HEAPr在高达25%的剪枝率下可以实现近乎无损的压缩,并将浮点运算次数(FLOPs)降低相似的幅度。 AI
影响 通过降低内存需求且不显著降低性能,从而能够更有效地部署大型MoE模型。
排序理由 这是一篇描述一种新的LLM剪枝算法的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →