PulseAugur
实时 10:22:53
English(EN) MTP has no impact on my Qwen3.6 MoE performance

用户寻求使用 MTP 优化 Qwen3.6 MoE 加速

一位 Reddit r/LocalLLaMA 社区的用户正在寻求关于在使用 MTP(Mixture-of-Tensors)优化时 Qwen3.6-35B MoE 模型性能的帮助。尽管遵循了 unsloth 指南并调整了各种标志,用户观察到 MTP 和非 MTP 版本之间的 token 生成速度没有提升。他们在两种情况下都经历了大约每秒 60 个 token 的速度,并正在寻找 MTP 未能提供预期性能提升的原因。 AI

排序理由 论坛上用户生成的内容,讨论特定模型的技​​术性能和优化,缺乏更广泛的行业意义。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/redblood252 ·

    MTP has no impact on my Qwen3.6 MoE performance

    <!-- SC_OFF --><div class="md"><p>Hello I have an rtx 5060Ti and I tried running unsloth's Qwen3.6-35B GGUF with MTP. However in both cases I have around 60 tok/s.</p> <p>Here are my flags:</p> <pre><code>llama-server -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_M --temp 0.6 --top-p …