English(EN) Simplified Sparse Attention via Gist Tokens

新研究通过基分解和 Gist Tokens 提供更快的 LLM 注意力 · 已跟踪 2 个来源

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-29 04:00

两篇新研究论文提出了加速大型语言模型注意力机制的新颖方法。第一篇“通过基分解加速注意力”（Accelerating Attention with Basis Decomposition）介绍了一种无损算法重构，可在无需重新训练的情况下实现显著的加速和权重减少，在 DeepSeek-V2-Lite 上实现了 34% 的更快的键/值投影。第二篇论文“通过 Gist Tokens 实现的简化稀疏注意力”（Simplified Sparse Attention via Gist Tokens）提出了一种更简单的方法，无需架构更改，并使用“Gist Tokens”来教会模型打包信息，在 LongBench 等长上下文基准测试中优于现有的稀疏注意力基线。 AI

影响这些方法可能导致大型语言模型更高效、更快速的推理，降低计算成本并提高长上下文任务的性能。

排序理由两篇在 arXiv 上发表的学术论文，提出了加速 LLM 注意力机制的新颖方法。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

新研究通过基分解和 Gist Tokens 提供更快的 LLM 注意力 · 已跟踪 2 个来源

报道来源 [2]

arXiv cs.LG TIER_1 English(EN) · Jialin Zhao · 2026-06-29 04:00

Accelerating Attention with Basis Decomposition

arXiv:2510.01718v2 Announce Type: replace Abstract: Attention is a core operation in large language models (LLMs). We present BD Attention (BDA), a lossless algorithmic reformulation of attention. BDA is enabled by a simple matrix identity from Basis Decomposition (BD), which res…
arXiv cs.LG TIER_1 English(EN) · Yuzhen Mao, Michael Y. Li, Emily B. Fox · 2026-06-29 04:00

Simplified Sparse Attention via Gist Tokens

arXiv:2604.20920v2 Announce Type: replace Abstract: Sparse attention can reduce the cost of long-context inference, but most variants introduce new architectural components. We introduce Simplified Sparse Attention (SSA), a simpler approach to sparse attention that requires no ar…

报道来源 [2]

Accelerating Attention with Basis Decomposition

Simplified Sparse Attention via Gist Tokens

相关实体

相关话题