PulseAugur
实时 09:45:37
English(EN) Simplified Sparse Attention via Gist Tokens

新研究通过基分解和 Gist Tokens 提供更快的 LLM 注意力 · 已跟踪 2 个来源

两篇新研究论文提出了加速大型语言模型注意力机制的新颖方法。第一篇“通过基分解加速注意力”(Accelerating Attention with Basis Decomposition)介绍了一种无损算法重构,可在无需重新训练的情况下实现显著的加速和权重减少,在 DeepSeek-V2-Lite 上实现了 34% 的更快的键/值投影。第二篇论文“通过 Gist Tokens 实现的简化稀疏注意力”(Simplified Sparse Attention via Gist Tokens)提出了一种更简单的方法,无需架构更改,并使用“Gist Tokens”来教会模型打包信息,在 LongBench 等长上下文基准测试中优于现有的稀疏注意力基线。 AI

影响 这些方法可能导致大型语言模型更高效、更快速的推理,降低计算成本并提高长上下文任务的性能。

排序理由 两篇在 arXiv 上发表的学术论文,提出了加速 LLM 注意力机制的新颖方法。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新研究通过基分解和 Gist Tokens 提供更快的 LLM 注意力 · 已跟踪 2 个来源

报道来源 [2]

  1. arXiv cs.LG TIER_1 English(EN) · Jialin Zhao ·

    Accelerating Attention with Basis Decomposition

    arXiv:2510.01718v2 Announce Type: replace Abstract: Attention is a core operation in large language models (LLMs). We present BD Attention (BDA), a lossless algorithmic reformulation of attention. BDA is enabled by a simple matrix identity from Basis Decomposition (BD), which res…

  2. arXiv cs.LG TIER_1 English(EN) · Yuzhen Mao, Michael Y. Li, Emily B. Fox ·

    Simplified Sparse Attention via Gist Tokens

    arXiv:2604.20920v2 Announce Type: replace Abstract: Sparse attention can reduce the cost of long-context inference, but most variants introduce new architectural components. We introduce Simplified Sparse Attention (SSA), a simpler approach to sparse attention that requires no ar…