softmax attention · PulseAugur

序列相关性影响序列模型中的上下文学习

一篇新的研究论文探讨了数据中的序列相关性如何影响现代序列模型中的上下文学习（ICL）。该研究使用基于线性注意力的可解模型，并在 Transformer 架构上进行测试，确定了两个关键影响。首先，提示中的相关性可以有效缩短上下文长度，使其表现得像更短的独立示例提示。其次，当查询令牌也与上下文相关时，测试误差会降低，特别是与线性注意力相比，对于 softmax 注意力而言，这表明提示相关性会影响给定任务的最佳注意力架构。

RESEARCH · CL_115231 · Jun 26 · 06:08

Flexformer 引入可学习注意力核以实现高效Transformer

研究人员推出了一种新颖的线性Transformer架构Flexformer，旨在克服传统Transformer的二次复杂度限制。Flexformer通过以数据驱动的方式学习注意力核来实现这一点，利用具有可训练频谱频率的随机傅里叶特征。这种方法具有更强的表达能力，并在语言建模和序列分类任务上展现出优于现有方法的性能。此外，Flexformer可以从预训练Transformer中蒸馏，并有望实现高效的长序列处理。

RESEARCH · CL_108502 · Jun 24 · 10:18

新的 EpiKV 方法优化 LLM KV 缓存，提高效率和上下文长度

一篇新研究论文介绍了一种名为 EpiKV 的方法，用于优化大型语言模型中的 KV 缓存淘汰。与依赖注意力权重的先前方法不同，EpiKV 使用源自模型内部表征变化的“顿悟分数”。这种方法避免了计算注意力矩阵的需要，能够实现融合内核集成，并显著提高上下文长度的处理能力。实验表明，EpiKV 在 MATH-500 和 AIME-2024 等基准测试中表现与基线相当或更优，同时提供了显著的速度提升。

RESEARCH · CL_109619 · Jun 24 · 03:14

Lifelong AI Learning Needs Parametric Attention in Transformers, Paper Argues

一项新的研究论文提出，要在 AI 代理中实现终身持续学习，必须在 Transformer 模型中使用参数化形式的注意力。该论文认为，当前注意力机制的二次方复杂度限制了 Transformer 处理任意长序列以进行上下文学习的能力。通过采用参数化注意力（该注意力通过回归在测试时学习键值关系），模型可以保持恒定的内存占用，这与 softmax 注意力等非参数化方法不同。该研究指出了参数化注意力目前的局限性，例如内存容量受限和在线更新成本高…

TOOL · CL_104717 · Jun 21 · 03:59

新研究将 Transformer 路径病理与通用路由机制联系起来

arXiv 上的一篇新论文提出，像注意力汇聚点（attention sinks）和表征塌陷（representation collapse）这样的常见 Transformer 病理并非注意力机制独有，而是内容路由在固定相似度度量下的固有缺陷。该研究将 softmax 注意力重新定义为欧氏距离上的玻尔兹曼加权聚合，并提出路由与表征不匹配的路由器会导致路由集中并使表征塌陷。这种现象在包括 Transformer、图注意力（graph at…

RESEARCH · CL_84359 · Jun 10 · 13:26

贝叶斯理论解释了Transformer注意力机制中复制头的涌现

研究人员开发了一种贝叶斯理论来解释Transformer注意力机制中“复制头”的涌现。他们对单层softmax注意力网络的分析揭示了这些注意力模式形成的相变，这种相变取决于训练数据的量。该理论框架为特定子电路的突然出现提供了第一性原理的解释，类似于在大语言模型训练中的观察结果。

TOOL · CL_82518 · Jun 10 · 04:00

模糊窗口注意力提高了Transformer处理长上下文的效率

研究人员推出了一种新方法——模糊窗口注意力（BLA），旨在提高Transformer语言模型处理长上下文的效率。BLA通过使用狄利克雷核从频率窗口重建模糊的KV历史，解决了标准Softmax注意力的二次复杂度和不断增长的KV缓存大小限制。该方法在滑动窗口注意力方面提供了状态效率的改进，并在需要信息检索的任务上保持了与其他线性注意力模型相当的性能。

TOOL · CL_64777 · May 28 · 00:00

视觉Transformer线性化，通过TTT实现更快的推理速度

研究人员开发了一种方法，将预训练的视觉Transformer模型转换为线性复杂度的测试时训练（TTT）架构。该方法对齐了架构和表示属性，允许从Softmax注意力模型高效地迁移权重。通过将此方法应用于Stable Diffusion 3.5，他们创建了SD3.5-T^5，该模型在经过少量微调后，实现了相当的图像质量和显著更快的推理速度。

RESEARCH · CL_20487 · May 6 · 17:42

新研究解释了Transformer如何通过梯度下降进行上下文内学习

两篇新的arXiv论文探讨了Transformer中上下文内学习（ICL）的理论基础。一篇论文展示了Transformer如何通过在每一层内隐式执行归一化梯度下降步骤来执行上下文内逻辑回归。另一篇论文研究了非线性回归，展示了注意力机制如何构建特征，使Transformer能够在不更新权重的情况下从示例中学习。

RESEARCH · CL_15493 · May 4 · 16:16

通过测试时训练实现视觉 Transformer 的线性化

研究人员开发了一种方法，使用测试时训练（TTT）将预训练的 Softmax 注意力模型适配到线性复杂度架构。该方法通过关注架构和表示的对齐来解决不同注意力机制之间的表示差距。该技术应用于 Stable Diffusion 3.5，产生了一个新模型 SD3.5-T$^5$，该模型在仅一小时的微调后，以显著更快的推理速度实现了可比的图像质量。

RESEARCH · CL_14475 · May 4 · 04:00

新测度理论框架解释了Transformer的表现力

研究人员引入了一个新的测度理论框架，以理解Transformer架构在建模上下文关系方面的表现力。该框架将标准softmax注意力与熵正则化最优传输联系起来，将注意力视为一种归一化亲和函数。该研究建立了一个通用逼近定理，证明了Transformer可以逼近任意的上下文关系规则，并且归一化方法会影响这些关系的表示。

RESEARCH · CL_11887 · May 1 · 04:00

Sigmoid attention 改进了生物基础模型，实现了更快、更稳定的训练

研究人员开发了一种名为 Sigmoid Attention 的新注意力机制，该机制在训练生物基础模型方面提供了显著改进。与传统的 softmax attention 相比，这种新颖的方法能够学习到更好的表示，实现高出 25% 的细胞类型分离度和更高的内聚度指标。此外，Sigmoid Attention 能够实现更快的训练，模型完成速度最多可提高 10%，并通过缓解 softmax attention 中固有的问题来增强稳定性。该团队还…

RESEARCH · CL_06270 · Apr 27 · 12:59

Kwai Summary Attention 压缩历史上下文以实现高效长上下文 LLM

研究人员推出了一种新颖的注意力机制 Kwai Summary Attention (KSA)，旨在解决大型语言模型中标准 softmax 注意力的二次时间复杂度问题。KSA 旨在通过将历史上下文压缩成可学习的摘要 token 来维持 KV 缓存与序列长度之间的线性关系。这种方法试图在内存成本与有效保留长距离依赖性之间取得平衡，为现有方法（如减少 KV 缓存或使用对 KV 缓存友好的架构）提供了替代方案。

RESEARCH · CL_05008 · Apr 23 · 20:12

新的架构和框架针对长上下文的LLM服务瓶颈

研究人员开发了新的架构和技术，以解决服务具有长上下文的大型语言模型（LLMs）时日益增长的延迟和能耗挑战。一种名为AMMA的方法提出了一种以内存为中心的多芯片设计，用HBM-PNM立方体取代GPU计算芯片，以提高内存带宽，与NVIDIA H100相比，在延迟和能耗方面实现了显著降低。另一个框架SPIN将稀疏注意力算法与分层KV存储相结合，通过优化GPU和CPU内存之间的KV缓存管理来提高吞吐量并减少首次令牌生成时间。此外，LayerB…