一位 Reddit r/LocalLLaMA 社区的用户正在寻求关于在使用 MTP(Mixture-of-Tensors)优化时 Qwen3.6-35B MoE 模型性能的帮助。尽管遵循了 unsloth 指南并调整了各种标志,用户观察到 MTP 和非 MTP 版本之间的 token 生成速度没有提升。他们在两种情况下都经历了大约每秒 60 个 token 的速度,并正在寻找 MTP 未能提供预期性能提升的原因。 AI
排序理由 论坛上用户生成的内容,讨论特定模型的技术性能和优化,缺乏更广泛的行业意义。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →