研究人员推出了一种名为 HeadRouter 的新方法,通过动态修剪音频令牌来压缩大型音频语言模型。与先前假设头重要性均一的方法不同,HeadRouter 认识到这些模型中的不同注意力头根据音频任务具有不同的贡献。这种无需训练的技术可以识别并利用特定注意力头的重要性来保留关键令牌,从而在不牺牲性能的情况下实现显著压缩。实验表明,HeadRouter 实现了最先进的压缩效果,在保留大量令牌的情况下,甚至在 AudioMarathon 和 MMAU-Pro 等基准测试中超越了原始模型。 AI
影响 引入了一种无需训练的方法,通过优化令牌修剪来显著降低大型音频语言模型的推理成本。
排序理由 这是一篇研究论文,介绍了一种用于大型音频语言模型音频令牌修剪的新方法。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →