(AF) How do I make MTP work in llama-server?

用户寻求帮助优化 llama.cpp 服务器中的 MTP

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-29 07:41

一位 Reddit 用户正在寻求有关在 llama.cpp 服务器中实现“draft-mtp”（多轮提示）功能的帮助。他们下载了一个特定的模型 Qwen3.6-35B-A3B-MTP-GGUF，并尝试启用 MTP 标志来运行它。初步基准测试显示，启用 MTP 后令牌生成速度有所下降，用户正在询问可能的原因以及提高草稿接受率的方法。 AI

影响对开源 LLM 推理工具中的特定功能进行故障排除，可能为用户带来性能改进。

排序理由用户生成的内容，讨论了开源工具中特定功能的实现和性能。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 (AF) · /u/Ok_Warning2146 · 2026-05-29 07:41

如何在 llama-server 中使用 MTP？

<div class="md">Downloaded IQ4_NL gguf from unsloth/Qwen3.6-35B-A3B-MTP-GGUF. git cloned a recent llama.cpp (version: 9397 (ac4b5a3fd)) and compiled it with GGML_CUDA=ON to run on my single 3090 llama-server command without MTP: ./build/bin/…

报道来源 [1]

如何在 llama-server 中使用 MTP？

相关实体

相关话题