一位 Reddit 用户正在寻求有关在 llama.cpp 服务器中实现“draft-mtp”(多轮提示)功能的帮助。他们下载了一个特定的模型 Qwen3.6-35B-A3B-MTP-GGUF,并尝试启用 MTP 标志来运行它。初步基准测试显示,启用 MTP 后令牌生成速度有所下降,用户正在询问可能的原因以及提高草稿接受率的方法。 AI
影响 对开源 LLM 推理工具中的特定功能进行故障排除,可能为用户带来性能改进。
排序理由 用户生成的内容,讨论了开源工具中特定功能的实现和性能。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →