English(EN) Speculative Pre-Positioning: Decoding Stateful Sessions to the Next Decision Point Off the Critical Path

新技术通过预解码会话加速大语言模型推理

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员引入了一种名为推测性预定位的新技术，以提高大型语言模型无状态推理服务器的效率。该方法将解码会话向前推进到下一个决策点，有效地将预填充和入口解码任务移出关键路径。该方法旨在通过允许下一个请求从预付费条目恢复，或者在某些置信度阈值下，通过快速词汇扫描从缓存分布中得到答案，从而减少延迟，与传统方法相比显著缩短了响应时间。 AI

影响可能显著降低大语言模型推理的延迟，从而实现更快的响应和更高效的计算资源利用。

排序理由该集群包含一篇详细介绍改进大语言模型推理的新技术方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Victor Norgren · 2026-06-30 04:00

投机性预定位：解码状态化会话至关键路径外的下一个决策点

arXiv:2606.29565v1 Announce Type: new Abstract: A stateless inference server (vLLM, SGLang, TensorRT-LLM) idles between requests while the accelerator waits; a stateful session reclaims that idle time. Speculative pre-positioning decodes the session forward to its next decision p…

报道来源 [1]

投机性预定位：解码状态化会话至关键路径外的下一个决策点

相关实体

相关话题