研究人员推出了一种新颖的Transformer注意力机制——无键注意力(Keyless Attention),该机制完全消除了键投影,仅基于查询(queries)和值(values)进行操作。与标准注意力相比,这种方法产生了一个仅值缓存(Value-Only Cache),将KV缓存内存和访问开销减半,同时保持或提高了解码吞吐量。该机制还实现了深度注意力因子分解(Depth-m Attention Factorization),实验表明,在多个模型和架构上,无键注意力在困惑度(perplexity)方面与标准QKV注意力相当或超越,并在常识推理基准测试中表现更优。 AI
影响 这种新颖的注意力机制有望显著降低大型语言模型的计算成本和内存需求,从而可能加速推理并支持更大的上下文窗口。
排序理由 该集群包含一篇详细介绍用于提高Transformer效率的新颖技术方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Depth-m Attention Factorization
- GPT-2
- Keyless Attention
- KV cache
- Llama 3.2
- Pythia
- QKV attention
- Queries
- Qwen2
- Transformers
- Values
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →