PulseAugur
实时 12:40:00

新的CAHP方法修剪Transformer注意力头以提高效率

研究人员推出了一种新颖的后验框架——互补注意力头修剪(CAHP),旨在提高Transformer模型的效率。与现有方法通常依赖不稳定的基于梯度的排序或手动调整不同,CAHP将头选择视为一个全局图论问题。它使用基于图的聚类和信息论度量来识别一个多样化且拓扑结构合理的注意力头子集,自动确定每层的最佳头数。在SST-5和MNLI基准上的评估表明,CAHP的性能优于其他方法,尤其是在高压缩场景下,它通过保留关键的中间层头而不是仅保留靠近输出的头来达到这一效果。 AI

影响 该方法可以实现在资源受限的环境中部署大型Transformer模型,从而扩大其应用范围。

排序理由 该集群包含一篇详细介绍模型压缩新方法的学术论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.LG TIER_1 English(EN) · Yaniv Livertovsky, Shahar Somin, Gonen Singer ·

    Complementary Attention Head Pruning for Efficient Transformers

    arXiv:2606.19150v1 Announce Type: new Abstract: The remarkable success of Transformer-based models in natural language processing stems from architectural scaling, which leads to a large number of parameters and hinders deployment in resource-constrained environments. While struc…

  2. arXiv cs.LG TIER_1 English(EN) · Gonen Singer ·

    Complementary Attention Head Pruning for Efficient Transformers

    The remarkable success of Transformer-based models in natural language processing stems from architectural scaling, which leads to a large number of parameters and hinders deployment in resource-constrained environments. While structured pruning offers a pathway to compression, e…