English(EN) PATCH: Learnable Tile-level Hybrid Sparsity for LLMs

PATCH框架为LLM实现可学习的混合稀疏性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-30 04:00

研究人员开发了PATCH，一个新颖的混合稀疏性框架，旨在降低大型语言模型（LLM）相关的内存和计算成本。该方法通过将权重矩阵划分为块（tiles）来实现0%到50%之间的连续稀疏比率。每个块可以根据可学习的掩码选择机制，被设置为密集（dense）或2:4稀疏。PATCH提供了对准确性和加速之间权衡的细粒度控制，实现了跨层的非均匀稀疏性，并在准确性损失最小的情况下实现了实际的速度提升。 AI

影响通过降低计算和内存需求，实现更高效的LLM部署。

排序理由介绍LLM优化新技术的学术论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Younes Hourri, Mohammad Mozaffari, Maryam Mehri Dehnavi · 2026-04-30 04:00

可学习的瓦片级混合稀疏性用于LLMs的补丁

arXiv:2509.23410v4 Announce Type: replace-cross Abstract: Large language models (LLMs) deliver impressive performance but incur prohibitive memory and compute costs at deployment. Model pruning is an effective way to reduce these overheads, yet existing approaches face challenges…

报道来源 [1]

可学习的瓦片级混合稀疏性用于LLMs的补丁

相关实体

相关话题