English(EN) Gaussian Mixture Attention: Linear-Time Sequence Mixing via Probabilistic Latent Routing

高斯混合注意力提供线性时间序列混合

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-18 04:00

研究人员引入了高斯混合注意力（GMA），这是一种新颖的序列混合技术，旨在克服标准Transformer注意力的二次扩展瓶颈。GMA用通过学习到的高斯混合分量的概率路由机制取代了显式的token到token比较，将内存复杂度从O(N^2)降低到O(NK)，其中K是固定的。虽然GMA在长上下文分类任务上表现出竞争力，并在因果设置中显示出潜力，但它在特定基准测试中目前落后于优化的softmax注意力和Mamba等状态空间模型。 AI

影响引入了一种新的注意力机制，可以实现AI模型中长序列的更有效处理。

排序理由介绍新模型架构的学术论文。[lever_c_research降级：ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Yongchao Huang, Hassan Raza · 2026-06-18 04:00

Gaussian Mixture Attention: Linear-Time Sequence Mixing via Probabilistic Latent Routing

arXiv:2606.18283v1 Announce Type: new Abstract: The dense token-to-token interaction pattern of standard dot-product attention remains a central bottleneck in scaling Transformer architectures to long contexts. We introduce \textbf{Gaussian Mixture Attention (GMA)}, a probabilist…

报道来源 [1]

Gaussian Mixture Attention: Linear-Time Sequence Mixing via Probabilistic Latent Routing

相关实体

相关话题