linear attention
PulseAugur coverage of linear attention — every cluster mentioning linear attention across labs, papers, and developer communities, ranked by signal.
4 天有情绪数据
-
NVIDIA 发布 Gated DeltaNet-2 以改进线性注意力
NVIDIA 推出了 Gated DeltaNet-2,这是一种新的线性注意力层,旨在改进循环神经网络中的内存编辑。该模型使用独立的通道门控机制,将擦除旧信息和写入新信息的过程分离开来,解决了先前 delta-rule 架构中的局限性。Gated DeltaNet-2 在 1000 亿 token 和 13 亿参数上进行了训练,在长上下文检索任务上表现优于 Mamba-2 和 KDA 等现有模型。
-
OSDN 通过在线预处理改进线性注意力
研究人员推出了一种新颖的方法 OSDN,该方法通过结合可证明的在线预处理来增强线性注意力机制。该技术通过超梯度反馈在线更新的对角线预处理器来增强 Delta 规则。OSDN 有效地按特征缩放写入端键,在不增加显着开销的情况下保留了 DeltaNet 的高效并行流水线。该方法在上下文内回忆任务中表现出改进的性能,在各种参数规模下均显示出比现有方法显着的优势。
-
新的注意力方法应对大语言模型长上下文挑战
研究人员正在开发新的注意力机制来处理大型语言模型中日益增长的长上下文。一种方法,Runtime-Certified Bounded-Error Quantized Attention,使用分层 KV 缓存来压缩内存,同时保证回退到精确注意力,确保语言建模和检索等任务的质量。另一种方法,DashAttention,采用可微分稀疏分层注意力来适应性地选择相关 token,以与全注意力相当的准确性实现高稀疏度,并提供优于现有分层方法的性能。…
-
循环模型因误差动力学而在状态跟踪方面失败
研究人员引入了一种关于循环神经网络架构中状态跟踪的新视角,强调误差控制动力学而非理论表达能力。他们证明了仿射循环网络(包括状态空间模型和线性注意力)由于无法在状态分离子空间上纠正误差,因此在鲁棒状态跟踪方面存在困难。这种限制导致了由累积误差决定的有限视界解决方案,并且随着可区分性比率跨越临界阈值,跟踪精度会可预测地下降。
-
StateX framework boosts RNN recall by expanding model states post-training
Researchers have developed StateX, a post-training framework designed to improve the recall capabilities of recurrent neural networks (RNNs). This method efficiently expands the states of pre-trained RNNs, such as linea…