研究人员引入了高斯混合注意力(GMA),这是一种新颖的序列混合技术,旨在克服标准Transformer注意力的二次扩展瓶颈。GMA用通过学习到的高斯混合分量的概率路由机制取代了显式的token到token比较,将内存复杂度从O(N^2)降低到O(NK),其中K是固定的。虽然GMA在长上下文分类任务上表现出竞争力,并在因果设置中显示出潜力,但它在特定基准测试中目前落后于优化的softmax注意力和Mamba等状态空间模型。 AI
影响 引入了一种新的注意力机制,可以实现AI模型中长序列的更有效处理。
排序理由 介绍新模型架构的学术论文。[lever_c_research降级:ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →