speculative decoding · PulseAugur

新的投机解码方法将大语言模型推理速度提升高达85% · 跟踪4个来源

研究人员开发了DSpark，一个旨在加速大语言模型（LLM）推理的新型投机解码框架。DSpark结合了用于改进草稿质量的半自回归架构和用于优化系统效率的置信度调度验证。在DeepSeek-V4服务系统中实现时，DSpark与MTP-1基线相比，每用户生成速度提高了60-85%，显著提高了吞吐量，并实现了以前无法达到的性能级别。另一个框架AdaptiveSD通过提供运行时自适应和多策略编排，解决了CPU受限的大语言模型推理问题，确保在各…

RESEARCH · CL_115628 · Jun 29 · 04:00

新方法通过自适应解码策略提高 LLM 推理速度

研究人员开发了 BlockPilot，一种新颖的投机解码方法，可自适应地预测生成文本的最佳块大小。该方法通过学习一种策略来提高效率，该策略根据预填充表示来选择块大小，从而实现显著的加速和更长的接受长度。此外，另一篇论文介绍了一种用于掩码扩散语言模型的连续解码框架，该框架允许 token 累积部分进度，为文本生成提供了更灵活的方法。

TOOL · CL_115074 · Jun 28 · 23:06

KV Cache 内存解析：估算和减少 LLM 中的 VRAM 使用量

KV Cache 是 LLM 推理的关键组成部分，会消耗大量 VRAM，尤其是在更长的上下文长度或更大的批处理大小时，其占用内存常常超过模型权重所需的内存。一个简单的公式可以估算 KV Cache 内存：2 × layers × hidden_dim × context_length × bytes_per_param。例如，Llama 3.1 70B 在 128K 上下文下，其 KV Cache 需要 340GB。像多查询注意力（M…

RESEARCH · CL_108333 · Jun 24 · 07:21

DFlash 通过并行令牌块草拟加速 AI 推理 · 跟踪 2 个来源

加州大学圣地亚哥分校的研究人员开发了 DFlash，这是一种新颖的推测性解码技术，可显著加速 AI 推理。与一次生成一个令牌的传统方法不同，DFlash 使用块扩散模型在单次传递中提出整个令牌块。然后，一个更大的目标模型并行验证这些块，从而实现显著的加速。这种方法在 NVIDIA Blackwell GPU 上对 GPT-OSS 120B 等模型显示出高达 15 倍的吞吐量，对于长上下文推理和编码任务尤其有利。

RESEARCH · CL_108834 · Jun 22 · 04:27

新的推测解码方法提高了 LLM 推理速度和安全性

研究人员正在开发先进的推测解码技术，以加速大型语言模型推理。HyperDFlash 针对 DeepSeek-V4 的多超连接架构优化了解码，提高了草稿的准确性和速度。Dustin 通过识别关键标记并减少重新计算来专注于高效的长上下文生成。同时，TAIS 对推测解码的输出进行安全性不变性筛选，发现在温度为零时没有分歧。JetSpec 和 RLM-Cascade 通过结合草稿策略并在响应级别应用推测解码来实现高性价比的 API 服务，提供…

TOOL · CL_96954 · Jun 17 · 07:41

推测性解码加速 LLM 推理

推测性解码是一种推理优化技术，它使用一个快速、较小的“草稿”模型来提议多个未来 token。然后，一个更大、更慢的“目标”模型会并行验证这些提议的 token。这种方法通过在不影响输出质量的情况下每步生成多个 token 来加速大型语言模型的 token 生成。

RESEARCH · CL_93469 · Jun 16 · 04:00

新方法通过投机解码提高 LLM 推理速度 · 跟踪 7 个来源

研究人员正在开发先进的投机解码技术来加速大型语言模型 (LLM) 推理。JetFlow 是一个新框架，通过结合草稿效率和因果条件，提高速度，在各种基准测试中实现显著加速。EfficientRollout 专注于通过使用系统感知型自我投机解码来加速强化学习的 rollout，适应不断变化的策略和系统条件以减少延迟。Nightjar 提供了一种资源感知型自适应方法，动态调整投机解码长度并在有利时禁用它，以在实时服务场景中最大化吞吐量。另外…

RESEARCH · CL_86582 · Jun 11 · 14:54

新方法利用推测解码加速扩散模型

研究人员开发了一种新方法，通过改编大型语言模型的推测解码技术来加速扩散模型。该方法在 arXiv 的一篇论文中有所详述，引入了一种新颖的方案，可以有效地在连续空间中采样残差分布，而这在以前是限制改编的挑战。该方法实现了块验证，可证明地提高了草稿的接受率，并正式化了一种不需要训练的“自由起草者”启发式方法，与现有的推测方法相比，速度提高了 6.3%。

TOOL · CL_64771 · May 28 · 00:00

新方法通过策略内蒸馏提升LLM推理速度

研究人员开发了Draft-OPD，一种提高大型语言模型推测解码效率的新方法。该技术通过使用策略内蒸馏来解决离线训练与实时推理之间的不匹配问题。Draft-OPD结合了目标辅助回放和错误重放，使草稿模型能够从接受和拒绝的提议中学习，并专注于阻碍推测性接受的错误。实验表明，该方法可以实现语言模型超过五倍的无损加速。

COMMENTARY · CL_37910 · May 19 · 01:12

LLM速度基准测试被批评误导实际性能

最近的一项分析认为，常见的LLM速度基准测试具有误导性，因为它们未能考虑到诸如负载大小、输出格式和解码约束等关键因素。这些基准测试通常只提供一个速度指标，并不能反映实际生产工作负载，因为实际工作负载在token数量和格式要求方面可能存在显著差异。作者强调，不同的模型架构针对不同的用例进行了优化，例如短输出延迟与长输出吞吐量，因此一刀切的基准测试对于为特定应用程序选择最佳模型是不准确的。

TOOL · CL_33253 · May 15 · 12:08

AI推理系统通过推测性解码优化实时性

本文深入探讨了优化AI推理以实现实时应用的技术方面。文章强调了最小化延迟作为核心架构考量因素日益增长的重要性。文章进一步探讨了推测性解码和KV缓存管理等技术，以及流式架构在实现高效响应式AI系统方面的优势。

TOOL · CL_30971 · May 14 · 06:13

推测性解码通过预测和验证来提高 LLM 效率

一种名为推测性解码的新技术允许大型语言模型通过提前预测然后验证来更有效地生成文本。该方法旨在降低生成每个 token 的计算成本，目前这需要完整的正向传播。通过让 LLM 进行猜测和检查，该过程可以显著加快文本生成速度。

RESEARCH · CL_25612 · May 8 · 13:08

新研究探讨用于 LLM 推理加速的推测性解码

arXiv 上发表的多篇研究论文探讨了大型语言模型 (LLM) 推测性解码的进展。这些研究侧重于通过使用一个较小的“草稿”模型来生成 token，然后由一个较大的“目标”模型进行验证，从而提高推理速度和效率。技术包括为生产系统开发可解释的延迟模型、使用强化学习优化草稿策略以及修改模型架构以防止“注意力漂移”等现象。研究旨在提高各种基准测试和模型系列的准确性和加速效果。

TOOL · CL_15962 · May 5 · 04:00

TokenTiming: 一种用于通用推测解码模型对的动态对齐方法

研究人员开发了一种名为TokenTiming的新方法，该方法借鉴了动态时间规整（Dynamic Time Warping）的思想，以提高大型语言模型中推测解码的效率。该技术允许使用词汇表不匹配的草稿模型和目标模型，无需重新训练。实验表明，TokenTiming可以将LLM推理速度提高1.57倍，使推测解码成为一个更实用的工具。

SIGNIFICANT · CL_13509 · May 3 · 08:10

Google's Gemma 4 models achieve 3x speed boost with speculative decoding

Google 为其 Gemma 4 开源模型发布了多令牌预测 (MTP) 草稿器，可将推理速度提高高达三倍。这项进展利用了投机解码架构，允许一个轻量级的草稿器模型同时预测多个令牌，而主模型则对其进行验证。MTP 草稿器的目标是解决标准 LLM 推理中的内存带宽瓶颈，在不影响输出质量或推理准确性的情况下提供更快的性能。

RESEARCH · CL_12748 · May 2 · 04:12

NVIDIA NeMo RL 使用推测解码将 AI 训练速度提高 1.8 倍

NVIDIA Research 已将其推测解码集成到其 NeMo RL 框架中，在 80 亿参数规模下实现了 1.8 倍的部署生成速度提升。这项利用 vLLM 后端的技术有望提供高达 2.5 倍的端到端加速。此项开发旨在显著降低与人工智能相关的训练成本。

RESEARCH · CL_09381 · Apr 29 · 18:12

通过推测性解码和分页注意力解释 LLM 训练和服务效率

Reiner Pope 发表了一项分析，详细介绍了大型语言模型训练和服务的数学和技术创新。该工作解释了推测性解码和分页注意力等技术如何提高前沿 AI 模型的效率。Pope 的研究借鉴了公开数据和方程，为这些先进系统提供了架构见解。

RESEARCH · CL_06923 · Apr 28 · 04:00

新方法KERV和HeiSD通过运动学感知加速具身VLA模型

两篇新研究论文介绍了加速用于机器人控制的视觉-语言-动作（VLA）模型推理速度的方法。KERV利用卡尔曼滤波器预测动作并调整接受阈值，在成功率损失极小的情况下实现了高达37%的加速。HeiSD提出了一种混合方法，将不同的推测解码技术与运动学感知相结合，在模拟中达到高达2.45倍的加速，在真实场景中达到2.41倍的加速，同时保持高成功率。

TOOL · CL_47678 · Dec 3 · 00:00

Together AI 推出 AutoJudge 以加快 LLM 推理速度

Together AI 的研究人员开发了 AutoJudge，这是一种加速大型语言模型推理的新颖方法。该技术可自动精选特定任务的数据集，从而无需手动注释即可实现有损推测解码。AutoJudge 可识别影响下游质量的关键标记，在标准推测解码的基础上实现了高达 2 倍的速度提升，同时准确性损失极小。

RESEARCH · CL_40753 · May 12 · 00:00

新方法通过推测性解码加速大语言模型推理

研究人员开发了多种通过推测性解码加速大语言模型（LLM）推理的新方法。AdaPLD 通过使用语义相似性和分支假设来改进检索和草稿构建，实现了高达 3.10 倍的加速。SSSD 结合了 n-gram 匹配和面向硬件的推测，在无需训练的情况下将延迟降低了高达 2.9 倍。D^2SD 使用双扩散模型和置信度引导的前缀树来提高接受率，而 TAPS 则优化了扩散草稿解码的前缀树选择，实现了高达 7.9 倍的加速。KnapSpec 将草稿模型选择…