PulseAugur
实时 17:56:22
English(EN) FlashMemory Cuts DeepSeek-V4's KV Cache to 13.5%: Lookahead Sparse Attention

FlashMemory 通过 LSA 将 DeepSeek-V4 KV 缓存减少至 13.5%

研究人员开发了一种名为前瞻稀疏注意力(Lookahead Sparse Attention, LSA)的新技术,该技术显著减少了大型语言模型在处理长上下文时的内存占用。通过训练一个轻量级的神经内存索引器,LSA 仅预测和加载 KV 缓存的关键部分,将内存使用量减少到完整缓存大小的 13.5%。该方法在 DeepSeek-V4 模型上进行了演示,显示 KV 缓存大小有所减小,准确性略有提高。 AI

影响 降低了长上下文 LLM 的内存成本,可能使其在部署时更易于访问和更高效。

排序理由 该条目描述了一篇研究论文(arXiv 2606.09079)中提出的一项新技术,该技术优化了长上下文 LLM 的推理。 [lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. dev.to — LLM tag TIER_1 English(EN) · pueding ·

    FlashMemory Cuts DeepSeek-V4's KV Cache to 13.5%: Lookahead Sparse Attention

    <p> </p> <p><strong>What:</strong> The <strong>FlashMemory-DeepSeek-V4</strong> paper introduces <strong>Lookahead Sparse Attention (LSA)</strong> — decoding very long context without loading the whole KV cache, by training a small <strong>Neural Memory Indexer</strong> to predic…