研究人员推出了一种名为跨域注意力(Interdomain Attention)的新型机制,它融合了Transformer和深度状态空间模型(SSM)的优势。该新方法使用核方法将SSM集成到注意力模块中,通过特征图近似注意力核,并将键特征投影到由SSM递归管理的共享基函数集上。在FineWeb-Edu上的语言模型实验中,跨域注意力在SSM和softmax基线之上展现了改进的性能,尤其是在更大的规模和更长的上下文长度下。 AI
影响 引入了一种可能提高大型语言模型效率和性能的新型架构。
排序理由 该集群包含一篇详细介绍新模型架构的研究论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →