linear attention · PulseAugur

HOLA 为线性注意力模型增强了互补记忆系统

研究人员开发了一种名为 HOLA（海马体线性注意力）的新方法，以增强线性注意力和状态空间语言模型的记忆能力。该方法引入了一个互补的“海马体”组件，用于存储精确的键值关联，解决了传统循环状态可能覆盖早期事实的损失性质。HOLA 在有界精确缓存旁边维护一个压缩记忆，从而能够高效存储线性可压缩结构，同时保留关键关联。这种半参数记忆系统在 Wikitext 和 LAMBADA 基准测试中的困惑度方面取得了显著改进，并在“针尖麦芒”召回测试中表…

RESEARCH · CL_128381 · Jul 4 · 01:47

序列相关性影响序列模型中的上下文学习

一篇新的研究论文探讨了数据中的序列相关性如何影响现代序列模型中的上下文学习（ICL）。该研究使用基于线性注意力的可解模型，并在 Transformer 架构上进行测试，确定了两个关键影响。首先，提示中的相关性可以有效缩短上下文长度，使其表现得像更短的独立示例提示。其次，当查询令牌也与上下文相关时，测试误差会降低，特别是与线性注意力相比，对于 softmax 注意力而言，这表明提示相关性会影响给定任务的最佳注意力架构。

TOOL · CL_122997 · Jul 2 · 15:19

新的HOLA架构通过双记忆系统增强线性注意力语言模型

研究人员开发了HOLA（海马体线性注意力）架构，这是一种通过引入互补记忆系统来增强线性注意力语言模型的新型架构。该系统解决了标准线性注意力模型中信息丢失的问题，在这些模型中，由于固定大小的循环状态，早期事实可能会被覆盖。HOLA在保持压缩状态的同时，增加了精确的KV缓存来存储关键关联，从而提高了召回率并降低了困惑度。

TOOL · CL_118004 · Jun 30 · 04:00

新的键相关层注意力为神经网络提供线性复杂度

研究人员开发了一种新颖的机制——键相关层注意力（KCLA），旨在改进神经网络中不同层之间的交互方式。KCLA通过实现线性复杂度来解决传统层注意力的二次计算复杂度问题，其灵感来源于对层注意力中键表示显示出高余弦相似性的观察。这种新方法保持了动态信息更新和有效的长距离跨层依赖性，性能优于循环层注意力和线性注意力等现有方法。KCLA在图像识别、物体检测和医学图像分割等各种应用中表现出色，并且其代码已公开提供。

RESEARCH · CL_115231 · Jun 26 · 06:08

Flexformer 引入可学习注意力核以实现高效Transformer

研究人员推出了一种新颖的线性Transformer架构Flexformer，旨在克服传统Transformer的二次复杂度限制。Flexformer通过以数据驱动的方式学习注意力核来实现这一点，利用具有可训练频谱频率的随机傅里叶特征。这种方法具有更强的表达能力，并在语言建模和序列分类任务上展现出优于现有方法的性能。此外，Flexformer可以从预训练Transformer中蒸馏，并有望实现高效的长序列处理。

RESEARCH · CL_115713 · Jun 25 · 16:16

新的注意力机制提升LLM效率并减少幻觉 · 跟踪10个来源

研究人员正在开发新颖的注意力机制，以提高大型语言模型（LLM）和多模态大型语言模型（MLLM）的效率和能力。这些进展侧重于优化长上下文的稀疏注意力，降低计算成本，并减轻幻觉和视觉基础薄弱等问题。Flash Sparse Attention (FSA)、Information-Regularized Attention (IRA) 和 Multipole Semantic Attention (MuSe) 等技术旨在提高性能、降低延迟，…

RESEARCH · CL_109619 · Jun 24 · 03:14

Lifelong AI Learning Needs Parametric Attention in Transformers, Paper Argues

一项新的研究论文提出，要在 AI 代理中实现终身持续学习，必须在 Transformer 模型中使用参数化形式的注意力。该论文认为，当前注意力机制的二次方复杂度限制了 Transformer 处理任意长序列以进行上下文学习的能力。通过采用参数化注意力（该注意力通过回归在测试时学习键值关系），模型可以保持恒定的内存占用，这与 softmax 注意力等非参数化方法不同。该研究指出了参数化注意力目前的局限性，例如内存容量受限和在线更新成本高…

RESEARCH · CL_103889 · Jun 18 · 00:00

HydraHead架构融合了多种注意力类型，以改进长上下文LLM

研究人员推出了一种新颖的HydraHead架构，该架构在Transformer模型内部的头级别上混合了全注意力（Full Attention）和线性注意力（Linear Attention）。该方法利用可解释性来识别全注意力的关键头，同时使用尺度归一化融合模块来整合两种注意力类型的输出。该方法旨在以更低的训练开销来提高长上下文性能，即使在有限的训练数据下也能取得显著的收益，并接近Qwen 3.5等更大模型的性能。

RESEARCH · CL_93108 · Jun 15 · 00:00

新研究探索用于大型语言模型的混合和稀疏注意力机制

研究人员正在探索优化大型语言模型中注意力机制的新方法，特别是用于处理长上下文。例如，HydraHead架构沿头轴混合了全注意力（FA）和线性注意力（LA），识别关键的FA头并协调分布差异。另外，StreamKL提供了一种快速且内存高效的方法来计算注意力蒸馏的Kullback-Leibler散度，减少了HBM占用空间，并支持在单个GPU上进行长上下文蒸馏。其他研究包括基于域分解的分层注意力和距离自适应表示，后者为远距离标记分配较低的维度…

RESEARCH · CL_84359 · Jun 10 · 13:26

贝叶斯理论解释了Transformer注意力机制中复制头的涌现

研究人员开发了一种贝叶斯理论来解释Transformer注意力机制中“复制头”的涌现。他们对单层softmax注意力网络的分析揭示了这些注意力模式形成的相变，这种相变取决于训练数据的量。该理论框架为特定子电路的突然出现提供了第一性原理的解释，类似于在大语言模型训练中的观察结果。

TOOL · CL_82518 · Jun 10 · 04:00

模糊窗口注意力提高了Transformer处理长上下文的效率

研究人员推出了一种新方法——模糊窗口注意力（BLA），旨在提高Transformer语言模型处理长上下文的效率。BLA通过使用狄利克雷核从频率窗口重建模糊的KV历史，解决了标准Softmax注意力的二次复杂度和不断增长的KV缓存大小限制。该方法在滑动窗口注意力方面提供了状态效率的改进，并在需要信息检索的任务上保持了与其他线性注意力模型相当的性能。

RESEARCH · CL_77141 · Jun 5 · 01:35

新模型解释训练多样性如何提升Transformer的上下文学习能力

研究人员开发了一个分析模型，用于解释训练任务多样性如何影响Transformer中的上下文学习（ICL）。该模型将训练任务向量视为低秩高斯分布，并证明了以非重叠子空间列定义的任务多样性可以增强ICL的泛化和优化能力。该框架有助于解释为何多样化训练可以缩短ICL平台期并实现分布外泛化，其研究结果也适用于非线性Transformer。

RESEARCH · CL_62204 · May 29 · 11:13

新框架使用贝叶斯记忆统一序列模型

研究人员引入了一个“设计-模型”框架，用于基于记忆假设创建高效的循环序列映射。该框架使用贝叶斯滤波将证据写入记忆，并使用依赖于查询的读出进行预测。他们的“贝叶斯层”实例化跟踪存储关联中的不确定性，提高了记忆保持和检索的鲁棒性。

RESEARCH · CL_43909 · May 21 · 17:44

NVIDIA 发布 Gated DeltaNet-2 以改进线性注意力

NVIDIA 推出了 Gated DeltaNet-2，这是一种新的线性注意力层，旨在改进循环神经网络中的内存编辑。该模型使用独立的通道门控机制，将擦除旧信息和写入新信息的过程分离开来，解决了先前 delta-rule 架构中的局限性。Gated DeltaNet-2 在 1000 亿 token 和 13 亿参数上进行了训练，在长上下文检索任务上表现优于 Mamba-2 和 KDA 等现有模型。

TOOL · CL_30774 · May 13 · 12:59

OSDN 通过在线预处理改进线性注意力

研究人员推出了一种新颖的方法 OSDN，该方法通过结合可证明的在线预处理来增强线性注意力机制。该技术通过超梯度反馈在线更新的对角线预处理器来增强 Delta 规则。OSDN 有效地按特征缩放写入端键，在不增加显着开销的情况下保留了 DeltaNet 的高效并行流水线。该方法在上下文内回忆任务中表现出改进的性能，在各种参数规模下均显示出比现有方法显着的优势。

RESEARCH · CL_34499 · May 11 · 20:03

新的注意力方法应对大语言模型长上下文挑战

研究人员正在开发新的注意力机制来处理大型语言模型中日益增长的长上下文。一种方法，Runtime-Certified Bounded-Error Quantized Attention，使用分层 KV 缓存来压缩内存，同时保证回退到精确注意力，确保语言建模和检索等任务的质量。另一种方法，DashAttention，采用可微分稀疏分层注意力来适应性地选择相关 token，以与全注意力相当的准确性实现高稀疏度，并提供优于现有分层方法的性能。…

TOOL · CL_25583 · May 8 · 13:59

循环模型因误差动力学而在状态跟踪方面失败

研究人员引入了一种关于循环神经网络架构中状态跟踪的新视角，强调误差控制动力学而非理论表达能力。他们证明了仿射循环网络（包括状态空间模型和线性注意力）由于无法在状态分离子空间上纠正误差，因此在鲁棒状态跟踪方面存在困难。这种限制导致了由累积误差决定的有限视界解决方案，并且随着可区分性比率跨越临界阈值，跟踪精度会可预测地下降。

RESEARCH · CL_05127 · Apr 27 · 04:00

StateX 框架通过训练后状态扩展提升 RNN 记忆能力

研究人员开发了 StateX，一个旨在提高循环神经网络 (RNN) 记忆能力的训练后框架。该方法在不显著增加模型参数的情况下，有效地扩展了预训练 RNN（如线性注意力模型和状态空间模型）的状态。实验表明，StateX 在高达 13 亿参数的模型中提升了记忆能力和上下文学习性能，同时不影响其他功能。