PulseAugur
实时 20:38:57
English(EN) Three Months of Speed-Up Experiments on a 3090 Ti: Autoregressive DFlash MTP for Qwen3.6-27B

本地 LLM 推理通过 MTP 优化提升至每秒 49 个 token

一位个人详细介绍了在单个 RTX 3090 Ti 上优化 LLM 推理速度的三个月项目,使用 Qwen3.6-27B 模型达到了每秒 49 个 token 的速度。这是通过一种集成到 llama.cpp 中的多 token 预测 (MTP) 技术实现的,与其他投机解码方法(如 DFlash)相比,该技术在更长输出时更稳定、更快。优化还包括调整推理预算,在不牺牲质量的情况下节省了时间,并强调了缓存重用对预填充操作的显著影响。 AI

影响 本地 LLM 推理速度得到提升,有可能在消费级硬件上实现更具响应性的 AI 应用。

排序理由 该集群详细介绍了在本地运行特定 LLM 的技术实验和优化,包括性能指标和不同技术的比较。[lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

本地 LLM 推理通过 MTP 优化提升至每秒 49 个 token

报道来源 [1]

  1. dev.to — LLM tag TIER_1 English(EN) · Ian L. Paterson ·

    Three Months of Speed-Up Experiments on a 3090 Ti: Autoregressive DFlash MTP for Qwen3.6-27B

    <h2> The setup </h2> <p>The starting line was 43 tokens per second decode on vanilla llama.cpp. The finishing line, three months later, is 39 to 49 tokens per second decode that doesn't collapse at long context, using a completely different speculative decoding technique than the…