研究人员推出了一种新颖的后验框架——互补注意力头修剪(CAHP),旨在提高Transformer模型的效率。与现有方法通常依赖不稳定的基于梯度的排序或手动调整不同,CAHP将头选择视为一个全局图论问题。它使用基于图的聚类和信息论度量来识别一个多样化且拓扑结构合理的注意力头子集,自动确定每层的最佳头数。在SST-5和MNLI基准上的评估表明,CAHP的性能优于其他方法,尤其是在高压缩场景下,它通过保留关键的中间层头而不是仅保留靠近输出的头来达到这一效果。 AI
影响 该方法可以实现在资源受限的环境中部署大型Transformer模型,从而扩大其应用范围。
排序理由 该集群包含一篇详细介绍模型压缩新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →