实体
Delta rule
Delta rule
PulseAugur coverage of Delta rule — every cluster mentioning Delta rule across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
NVIDIA 发布 Gated DeltaNet-2 以改进线性注意力
NVIDIA 推出了 Gated DeltaNet-2,这是一种新的线性注意力层,旨在改进循环神经网络中的内存编辑。该模型使用独立的通道门控机制,将擦除旧信息和写入新信息的过程分离开来,解决了先前 delta-rule 架构中的局限性。Gated DeltaNet-2 在 1000 亿 token 和 13 亿参数上进行了训练,在长上下文检索任务上表现优于 Mamba-2 和 KDA 等现有模型。
-
OSDN 通过在线预处理改进线性注意力
研究人员推出了一种新颖的方法 OSDN,该方法通过结合可证明的在线预处理来增强线性注意力机制。该技术通过超梯度反馈在线更新的对角线预处理器来增强 Delta 规则。OSDN 有效地按特征缩放写入端键,在不增加显着开销的情况下保留了 DeltaNet 的高效并行流水线。该方法在上下文内回忆任务中表现出改进的性能,在各种参数规模下均显示出比现有方法显着的优势。