English(EN) Adaptive Computation Depth via Learned Token Routing in Transformers

Transformer 中学习的令牌路由可适应计算深度以提高效率

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-08 04:00

研究人员为 Transformer 模型开发了一种名为令牌选择性注意力 (TSA) 的新技术，该技术允许模型动态调整每个令牌的计算深度。该方法使用轻量级的学习门来决定是否跳过 Transformer 块之间的残差更新，从而使整个过程可端到端微分，并且参数开销极小。TSA 在字符级语言建模任务上显著节省了令牌-层操作，减少了 14-23%，而质量损失不到 0.5%，并且在相似效率水平下，与早期退出方法相比，性能有所提高。 AI

影响引入了一种通过自适应路由令牌来提高 Transformer 计算效率的方法，有望降低推理速度和训练成本。

排序理由这是一篇详细介绍 Transformer 架构新技术的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Ahmed Abdelmuniem Abdalla Mohammed · 2026-05-08 04:00

Adaptive Computation Depth via Learned Token Routing in Transformers

arXiv:2605.05222v1 Announce Type: new Abstract: Standard transformer architectures apply the same number of layers to every token regardless of contextual difficulty. We present Token-Selective Attention (TSA), a learned per-token gate on residual updates between consecutive tran…

报道来源 [1]

Adaptive Computation Depth via Learned Token Routing in Transformers

相关实体

相关话题