研究人员开发了新的方法来加速大型语言模型(LLM)的推理。UniVer为多步和多草稿推测性解码提供了一种统一的方法,将接受长度提高了高达8.5%。推测性解码(SSD)引入了一种并行化验证和推测的方法,其优化的Saguaro算法在自回归解码方面实现了高达5倍的加速。此外,SpecKV引入了一种自适应控制器,该控制器根据模型压缩和草稿模型信号动态选择推测长度,与固定长度推测相比,性能提高了56.0%。 AI
影响 新的推测性解码技术有望显著提高LLM推理速度,从而降低计算成本和延迟。
排序理由 多篇arXiv论文介绍了加速LLM推理的新技术。
AI 生成摘要 · Google Gemini · 来自 7 个来源。 我们如何撰写摘要 →