English(EN) Shallow Prefill, Deep Decoding: Efficient Long-Context Inference via Layer-Asymmetric KV Visibility

新的 SPEED 方法将长上下文 AI 推理成本降低 25%

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-08 04:00

研究人员开发了一种名为浅层预填充，深层解码 (SPEED) 的新方法，以提高长上下文语言模型推理的效率。SPEED 在预填充阶段仅处理模型较低层中的提示标记，从而降低计算成本，而在解码阶段则保持所有层处于活动状态。这种方法在保持基准测试质量的同时，显著减少了处理扩展上下文的模型在推理时间和内存使用方面的需求。 AI

影响这项技术可以显著降低运行具有长上下文的大型语言模型的计算成本，使其在各种应用中更易于访问和实用。

排序理由这是一篇详细介绍一种新颖的提高 AI 模型推理效率方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Jungsuk Oh, Hyeseo Jeon, Hyunjune Ji, Kyongmin Kong, Jay-Yoon Lee · 2026-05-08 04:00

浅层预填充，深层解码：通过层不对称 KV 可见性实现高效长上下文推理

arXiv:2605.06105v1 Announce Type: new Abstract: Long-context inference in decoder-only language models is costly because long prompts are processed during Prefill, cached at every layer, and repeatedly attended to during autoregressive Decode. We introduce \emph{Shallow Prefill, …

报道来源 [1]

浅层预填充，深层解码：通过层不对称 KV 可见性实现高效长上下文推理

相关实体

相关话题