研究人员开发了一种名为 CreditDecoding 的新方法,以加速扩散大型语言模型 (dLLM) 的文本生成过程。该技术解决了模型预测正确 token 的时间早于其解码置信度分数允许的时间的效率低下问题,导致冗余迭代。CreditDecoding 使用“Trace Credit”量化 token 的解码潜力,并将其与当前模型输出融合,以提高对正确但置信度不足的 token 的信心。这种无需训练的方法在各种基准测试和 dLLM 架构上都显示出高达 5.48 倍的显著加速,同时提高了准确性。 AI
影响 加速 LLM 推理,可能为广泛的应用带来更快、更高效的文本生成。
排序理由 这是一篇详细介绍加速 LLM 推理新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →