PulseAugur
实时 04:46:25
(AF) How do I make MTP work in llama-server?

用户寻求帮助优化 llama.cpp 服务器中的 MTP

一位 Reddit 用户正在寻求有关在 llama.cpp 服务器中实现“draft-mtp”(多轮提示)功能的帮助。他们下载了一个特定的模型 Qwen3.6-35B-A3B-MTP-GGUF,并尝试启用 MTP 标志来运行它。初步基准测试显示,启用 MTP 后令牌生成速度有所下降,用户正在询问可能的原因以及提高草稿接受率的方法。 AI

影响 对开源 LLM 推理工具中的特定功能进行故障排除,可能为用户带来性能改进。

排序理由 用户生成的内容,讨论了开源工具中特定功能的实现和性能。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/LocalLLaMA TIER_1 (AF) · /u/Ok_Warning2146 ·

    如何在 llama-server 中使用 MTP?

    <!-- SC_OFF --><div class="md"><p>Downloaded IQ4_NL gguf from unsloth/Qwen3.6-35B-A3B-MTP-GGUF.</p> <p>git cloned a recent llama.cpp (version: 9397 (ac4b5a3fd)) and compiled it with GGML_CUDA=ON to run on my single 3090 </p> <p>llama-server command without MTP:<br /> ./build/bin/…