PulseAugur
实时 21:58:36

HubRouter 为序列模型提供亚二次方路由,提高吞吐量

研究人员开发了 HubRouter,这是一个新颖的模块,旨在用更高效的 O(nM) 中心节点介导的路由系统取代序列模型中计算成本高昂的 O(n^2) 注意力层。这种新的原始模块使用少量学习到的中心节点 token 来促进路由,在某些配置下可将训练吞吐量显著提高高达 90 倍。虽然 HubRouter 在提高效率方面显示出潜力,尤其是在 Jamba 等混合架构中,但与标准 Transformer 相比,它在模型质量方面带来了一些权衡。 AI

影响 引入了一种更高效的序列模型路由机制,有可能降低计算成本并加速训练。

排序理由 该集群描述了一篇详细介绍序列模型新颖技术方法的学术论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

HubRouter 为序列模型提供亚二次方路由,提高吞吐量

报道来源 [2]

  1. arXiv cs.LG TIER_1 English(EN) · Abhinaba Basu ·

    HubRouter: A Pluggable Sub-Quadratic Routing Primitive for Hybrid Sequence Models

    arXiv:2604.22442v1 Announce Type: new Abstract: We introduce HubRouter, a pluggable module that replaces O(n^2) attention layers with O(nM) hub-mediated routing, where M << n is a small number of learned hub tokens. We demonstrate it in two from-scratch architectures: a Jamba-sty…

  2. arXiv cs.LG TIER_1 English(EN) · Abhinaba Basu ·

    HubRouter: A Pluggable Sub-Quadratic Routing Primitive for Hybrid Sequence Models

    We introduce HubRouter, a pluggable module that replaces O(n^2) attention layers with O(nM) hub-mediated routing, where M << n is a small number of learned hub tokens. We demonstrate it in two from-scratch architectures: a Jamba-style hybrid and a 12-layer Transformer; retrofit i…