研究人员开发了新的方法来提高大型语言模型(LLMs)的效率,方法是压缩它们的键值(KV)缓存。一种名为InfoKV的方法,利用预测不确定性等信息论信号以及注意力权重,来更好地估计token重要性以进行压缩,在Llama-3.1和DeepSeek-R1等模型的长上下文推理任务上表现出改进的性能。另一种方法Block-GTQ,专注于RoPE感知比特分配用于KV缓存量化,根据RoPE中不同频率块对量化误差的敏感度来调整比特分布。该技术显著提高了长上下文检索和推理等任务的下游性能,并能在最小的质量损失下实现大量的KV缓存压缩,如在Llama-3.1-8B-Instruct和Qwen2.5-3B-Instruct等模型上所展示的。 AI
影响 KV缓存压缩和量化方面的这些进展有望显著降低LLMs的内存使用量并提高推理速度,从而实现更长的上下文窗口和更高效的部署。
排序理由 多篇研究论文和社区讨论详细介绍了LLMs中KV缓存压缩和量化的新颖方法。
在 Hugging Face Daily Papers 阅读 →
- Gemma4-E2B QAT
- Gemma 4 QAT
- KV cache quantization
- Qwen3.6-35B-A3B
- AIME 2024/2025
- Block-GTQ
- DeepSeek-R1-Distill-Qwen-7B
- FlashAttention2
- Llama-3.1-8B-Instruct
- LongBench-EN
- Nvidia H800
- Qwen2.5-3B-Instruct
- RoPE
- TQ-MSE
- DeepSeek-R1
- KV cache
- Llama-3.1
AI 生成摘要 · Google Gemini · 来自 8 个来源。 我们如何撰写摘要 →