研究人员为 Transformer 模型开发了一种名为令牌选择性注意力 (TSA) 的新技术,该技术允许模型动态调整每个令牌的计算深度。该方法使用轻量级的学习门来决定是否跳过 Transformer 块之间的残差更新,从而使整个过程可端到端微分,并且参数开销极小。TSA 在字符级语言建模任务上显著节省了令牌-层操作,减少了 14-23%,而质量损失不到 0.5%,并且在相似效率水平下,与早期退出方法相比,性能有所提高。 AI
影响 引入了一种通过自适应路由令牌来提高 Transformer 计算效率的方法,有望降低推理速度和训练成本。
排序理由 这是一篇详细介绍 Transformer 架构新技术的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →