研究人员推出了一种新方法——模糊窗口注意力(BLA),旨在提高Transformer语言模型处理长上下文的效率。BLA通过使用狄利克雷核从频率窗口重建模糊的KV历史,解决了标准Softmax注意力的二次复杂度和不断增长的KV缓存大小限制。该方法在滑动窗口注意力方面提供了状态效率的改进,并在需要信息检索的任务上保持了与其他线性注意力模型相当的性能。 AI
影响 引入了一种更高效的注意力机制,用于处理语言模型中的长序列。
排序理由 该集群包含一篇详细介绍提高Transformer效率新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Attention with Bounded-memory Control
- Blurry Window Attention
- Dirichlet kernels
- Linear Attention
- Multi-Query Associate Recall
- RegBench
- Sliding Window Attention
- Softmax Attention
- State-Space Models
- Transformer
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →