PulseAugur
实时 13:32:47

新的跨域注意力机制融合了Transformer和SSM

研究人员推出了一种名为跨域注意力(Interdomain Attention)的新型机制,它融合了Transformer和深度状态空间模型(SSM)的优势。该新方法使用核方法将SSM集成到注意力模块中,通过特征图近似注意力核,并将键特征投影到由SSM递归管理的共享基函数集上。在FineWeb-Edu上的语言模型实验中,跨域注意力在SSM和softmax基线之上展现了改进的性能,尤其是在更大的规模和更长的上下文长度下。 AI

影响 引入了一种可能提高大型语言模型效率和性能的新型架构。

排序理由 该集群包含一篇详细介绍新模型架构的研究论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Naoki Kiyohara, Harrison Bo Hua Zhu, Riccardo El Hassanin, Zhuo Sun, Wenlong Chen, Samir Bhatt, Yingzhen Li ·

    跨域注意力:超越令牌级键值记忆

    arXiv:2605.24330v1 Announce Type: new Abstract: Transformers and deep state space models (SSMs) sit at opposite ends of a basic design choice: attention routes each query through a growing key-value (KV) cache by content-based matching at quadratic cost, while deep SSMs compress …