PulseAugur
实时 02:27:19
English(EN) PATCH: Learnable Tile-level Hybrid Sparsity for LLMs

PATCH框架为LLM实现可学习的混合稀疏性

研究人员开发了PATCH,一个新颖的混合稀疏性框架,旨在降低大型语言模型(LLM)相关的内存和计算成本。该方法通过将权重矩阵划分为块(tiles)来实现0%到50%之间的连续稀疏比率。每个块可以根据可学习的掩码选择机制,被设置为密集(dense)或2:4稀疏。PATCH提供了对准确性和加速之间权衡的细粒度控制,实现了跨层的非均匀稀疏性,并在准确性损失最小的情况下实现了实际的速度提升。 AI

影响 通过降低计算和内存需求,实现更高效的LLM部署。

排序理由 介绍LLM优化新技术的学术论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

PATCH框架为LLM实现可学习的混合稀疏性

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Younes Hourri, Mohammad Mozaffari, Maryam Mehri Dehnavi ·

    PATCH: Learnable Tile-level Hybrid Sparsity for LLMs

    arXiv:2509.23410v4 Announce Type: replace-cross Abstract: Large language models (LLMs) deliver impressive performance but incur prohibitive memory and compute costs at deployment. Model pruning is an effective way to reduce these overheads, yet existing approaches face challenges…