HubRouter 为序列模型提供亚二次方路由，提高吞吐量

作者 PulseAugur 编辑部 · [2 个来源] · 2026-04-24 10:59

研究人员开发了 HubRouter，这是一个新颖的模块，旨在用更高效的 O(nM) 中心节点介导的路由系统取代序列模型中计算成本高昂的 O(n^2) 注意力层。这种新的原始模块使用少量学习到的中心节点 token 来促进路由，在某些配置下可将训练吞吐量显著提高高达 90 倍。虽然 HubRouter 在提高效率方面显示出潜力，尤其是在 Jamba 等混合架构中，但与标准 Transformer 相比，它在模型质量方面带来了一些权衡。 AI

影响引入了一种更高效的序列模型路由机制，有可能降低计算成本并加速训练。

排序理由该集群描述了一篇详细介绍序列模型新颖技术方法的学术论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.LG TIER_1 English(EN) · Abhinaba Basu · 2026-04-27 04:00

HubRouter：混合序列模型的插件式亚二次路由原语

arXiv:2604.22442v1 Announce Type: new Abstract: We introduce HubRouter, a pluggable module that replaces O(n^2) attention layers with O(nM) hub-mediated routing, where M << n is a small number of learned hub tokens. We demonstrate it in two from-scratch architectures: a Jamba-sty…
arXiv cs.LG TIER_1 English(EN) · Abhinaba Basu · 2026-04-24 10:59

HubRouter：混合序列模型的插件式亚二次路由原语

We introduce HubRouter, a pluggable module that replaces O(n^2) attention layers with O(nM) hub-mediated routing, where M << n is a small number of learned hub tokens. We demonstrate it in two from-scratch architectures: a Jamba-style hybrid and a 12-layer Transformer; retrofit i…

报道来源 [2]

HubRouter：混合序列模型的插件式亚二次路由原语

HubRouter：混合序列模型的插件式亚二次路由原语

相关实体

相关话题