PulseAugur
实时 16:46:12
English(EN) Adaptive Computation Depth via Learned Token Routing in Transformers

Transformer 中学习的令牌路由可适应计算深度以提高效率

研究人员为 Transformer 模型开发了一种名为令牌选择性注意力 (TSA) 的新技术,该技术允许模型动态调整每个令牌的计算深度。该方法使用轻量级的学习门来决定是否跳过 Transformer 块之间的残差更新,从而使整个过程可端到端微分,并且参数开销极小。TSA 在字符级语言建模任务上显著节省了令牌-层操作,减少了 14-23%,而质量损失不到 0.5%,并且在相似效率水平下,与早期退出方法相比,性能有所提高。 AI

影响 引入了一种通过自适应路由令牌来提高 Transformer 计算效率的方法,有望降低推理速度和训练成本。

排序理由 这是一篇详细介绍 Transformer 架构新技术的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

Transformer 中学习的令牌路由可适应计算深度以提高效率

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Ahmed Abdelmuniem Abdalla Mohammed ·

    Adaptive Computation Depth via Learned Token Routing in Transformers

    arXiv:2605.05222v1 Announce Type: new Abstract: Standard transformer architectures apply the same number of layers to every token regardless of contextual difficulty. We present Token-Selective Attention (TSA), a learned per-token gate on residual updates between consecutive tran…