研究人员开发了 STAND(STochastic Adaptive N-gram Drafting),一种新的无模型推测解码技术,旨在加速语言模型推理。该方法利用推理轨迹中的冗余来更有效地预测 token,而无需单独的草稿模型。STAND 在各种推理任务和模型上已证明可将推理延迟减少 60-65%,同时保持准确性并优于现有的推测解码方法。 AI
影响 加速 LLM 推理速度,可能实现更复杂的推理任务和更广泛的部署。
排序理由 发表了一篇详细介绍加速语言模型推理新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →