新的跨域注意力机制融合了Transformer和SSM

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 04:00

研究人员推出了一种名为跨域注意力（Interdomain Attention）的新型机制，它融合了Transformer和深度状态空间模型（SSM）的优势。该新方法使用核方法将SSM集成到注意力模块中，通过特征图近似注意力核，并将键特征投影到由SSM递归管理的共享基函数集上。在FineWeb-Edu上的语言模型实验中，跨域注意力在SSM和softmax基线之上展现了改进的性能，尤其是在更大的规模和更长的上下文长度下。 AI

影响引入了一种可能提高大型语言模型效率和性能的新型架构。

排序理由该集群包含一篇详细介绍新模型架构的研究论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Naoki Kiyohara, Harrison Bo Hua Zhu, Riccardo El Hassanin, Zhuo Sun, Wenlong Chen, Samir Bhatt, Yingzhen Li · 2026-05-26 04:00

跨域注意力：超越令牌级键值记忆

arXiv:2605.24330v1 Announce Type: new Abstract: Transformers and deep state space models (SSMs) sit at opposite ends of a basic design choice: attention routes each query through a growing key-value (KV) cache by content-based matching at quadratic cost, while deep SSMs compress …

报道来源 [1]

跨域注意力：超越令牌级键值记忆

相关实体

相关话题