English(EN) Could someone please help explain these results?

LLaMA 用户在更改 CPU 参数后使用 Qwen 模型推理速度翻倍

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-25 03:01

Reddit 的 r/LocalLLaMA 子版块上一名用户正在寻求帮助，以理解在运行 Qwen3.6-35B-A3B-UD-Q4_K_XL 模型时出现的意外性能提升。他们观察到，在将 `--n-cpu-moe` 参数从 8 增加到 30 后，推理速度翻了一番，从每秒 17 个 token 增加到 34 个 token，这与他们因 CPU 负载增加而预期性能下降的看法相悖。该用户还在询问如何进一步优化他们的设置，该设置包括 12GB VRAM 和 32GB RAM，并使用 llama.cpp 和 TurboQuant 变体。 AI

排序理由这是一个关于特定技术配置的用户生成问题，而不是一般的行业公告或发展。

在 r/LocalLLaMA 阅读 →

其他

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/MackTuesday · 2026-05-25 03:01

有人能帮忙解释一下这些结果吗？

<div class="md"><p>I'm running Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf on 12 GB VRAM and 32 GB RAM via the TurboQuant variant of llama.cpp. I increased the --n-cpu-moe value from 8 to 30, and my inference rate doubled! (17 to 34 tok/s). Shouldn't it have slowed down from t…

报道来源 [1]

有人能帮忙解释一下这些结果吗？

相关实体

相关话题