研究人员开发了 BudgetFormer,一种 Transformer 架构,通过动态分配计算资源来优化多头注意力的使用。这种新机制学会为每个输入选择信息量最大的注意力头,减少不必要的计算并可能提高性能。在文本分类任务上的实验表明,BudgetFormer 在匹配或超过标准全多头注意力的有效性的同时,可以减少 FLOPs 和内存使用。 AI
影响 引入了一种在不牺牲性能的情况下降低 Transformer 推理计算成本的方法。
排序理由 介绍 Transformer 模型新架构修改的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →