English(EN) MTP has no impact on my Qwen3.6 MoE performance

用户寻求使用 MTP 优化 Qwen3.6 MoE 加速

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-04 06:43

一位 Reddit r/LocalLLaMA 社区的用户正在寻求关于在使用 MTP（Mixture-of-Tensors）优化时 Qwen3.6-35B MoE 模型性能的帮助。尽管遵循了 unsloth 指南并调整了各种标志，用户观察到 MTP 和非 MTP 版本之间的 token 生成速度没有提升。他们在两种情况下都经历了大约每秒 60 个 token 的速度，并正在寻找 MTP 未能提供预期性能提升的原因。 AI

排序理由论坛上用户生成的内容，讨论特定模型的技术性能和优化，缺乏更广泛的行业意义。

在 r/LocalLLaMA 阅读 →

其他

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/redblood252 · 2026-06-04 06:43

MTP 对我的 Qwen3.6 MoE 性能没有影响

<div class="md"><p>Hello I have an rtx 5060Ti and I tried running unsloth's Qwen3.6-35B GGUF with MTP. However in both cases I have around 60 tok/s.</p> <p>Here are my flags:</p> <pre><code>llama-server -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_M --temp 0.6 --top-p …

报道来源 [1]

MTP 对我的 Qwen3.6 MoE 性能没有影响

相关实体

相关话题