研究人员推出了一种新颖的注意力架构——受挫同步网络(FSN),其灵感来源于振荡器的同步。与传统的注意力机制不同,FSN的计算根植于结构化的分歧,利用复杂的耦合核和单步延迟。在字符级文本和代码上的实验表明,在相当的参数和训练预算下,FSN在验证损失方面优于经过调优的RoPE-SwiGLU Transformer,甚至在自然文本的长距离复制事件上表现优于已收敛的Transformer。 AI
影响 引入了一种新的架构方法,可能在特定任务上提供优于标准Transformer的性能。
排序理由 该集群包含一篇详细介绍新颖神经网络架构的研究论文。
在 arXiv cs.NE (Neural & Evolutionary) 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →