HEAPr算法精确剪枝LLM专家，降低内存需求

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 04:00

研究人员开发了HEAPr，一种旨在减少混合专家（MoE）大型语言模型内存占用的新剪枝算法。与之前剪枝整个专家的旧方法不同，HEAPr将专家分解为更小的原子单元。这种方法利用原子专家输出的二阶信息，显著降低了计算复杂度，并实现了在精度损失最小的情况下进行更精确的压缩。在DeepSeek MoE和Qwen MoE等模型上的实验表明，HEAPr在高达25%的剪枝率下可以实现近乎无损的压缩，并将浮点运算次数（FLOPs）降低相似的幅度。 AI

影响通过降低内存需求且不显著降低性能，从而能够更有效地部署大型MoE模型。

排序理由这是一篇描述一种新的LLM剪枝算法的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Ke Li, Zheng Yang, Zhongbin Zhou, Feng Xue, Zhonglin Jiang, Wenxiao Wang · 2026-05-26 04:00

HEAPr: 基于 Hessian 的输出空间高效原子专家剪枝

arXiv:2509.22299v3 Announce Type: replace-cross Abstract: Mixture-of-Experts (MoE) architectures in large language models (LLMs) deliver exceptional performance and reduced inference costs compared to dense LLMs. However, their large parameter counts result in prohibitive memory …

报道来源 [1]

HEAPr: 基于 Hessian 的输出空间高效原子专家剪枝

相关实体

相关话题