English(EN) STS: Efficient Sparse Attention with Speculative Token Sparsity

新的稀疏注意力方法在无需重新训练的情况下提高了大型语言模型的推理速度

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-15 01:05

研究人员推出了一种新颖的稀疏注意力机制STS，旨在加速大型语言模型（LLM）的推理，而无需进行模型重新训练。STS利用一个较小的草稿模型来预测重要代币，然后指导较大目标模型的稀疏性掩码。这种方法集成到投机解码中，在NarrativeQA基准测试上实现了2.67倍的速度提升，稀疏度约为90%，同时保持了准确性。 AI

影响能够实现更快的LLM推理和更长序列的处理，可能加速代理应用。

排序理由该集群包含一篇详细介绍提高AI模型效率的新颖方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Yuan Xie · 2026-05-15 01:05

STS：具有推测性令牌稀疏性的高效稀疏注意力

The quadratic complexity of attention imposes severe memory and computational bottlenecks on Large Language Model (LLM) inference. This challenge is particularly acute for emerging agentic applications that require processing multi-million token sequences. We propose STS, a spars…

报道来源 [1]

STS：具有推测性令牌稀疏性的高效稀疏注意力

相关实体

相关话题