PulseAugur
实时 12:22:05
English(EN) Blurry Window Attention

模糊窗口注意力提高了Transformer处理长上下文的效率

研究人员推出了一种新方法——模糊窗口注意力(BLA),旨在提高Transformer语言模型处理长上下文的效率。BLA通过使用狄利克雷核从频率窗口重建模糊的KV历史,解决了标准Softmax注意力的二次复杂度和不断增长的KV缓存大小限制。该方法在滑动窗口注意力方面提供了状态效率的改进,并在需要信息检索的任务上保持了与其他线性注意力模型相当的性能。 AI

影响 引入了一种更高效的注意力机制,用于处理语言模型中的长序列。

排序理由 该集群包含一篇详细介绍提高Transformer效率新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Axel Laborieux, Christos Sourmpis, Juan Gabriel Kostelec, Qinghai Guo ·

    Blurry Window Attention

    arXiv:2606.09862v1 Announce Type: cross Abstract: The Softmax Attention operation in Transformer language models has a quadratic complexity in the sequence length and a growing state size in the form of KV cache, which becomes a bottleneck in long context scenarios. To overcome t…