PulseAugur
实时 09:30:39
English(EN) Could someone please help explain these results?

LLaMA 用户在更改 CPU 参数后使用 Qwen 模型推理速度翻倍

Reddit 的 r/LocalLLaMA 子版块上一名用户正在寻求帮助,以理解在运行 Qwen3.6-35B-A3B-UD-Q4_K_XL 模型时出现的意外性能提升。他们观察到,在将 `--n-cpu-moe` 参数从 8 增加到 30 后,推理速度翻了一番,从每秒 17 个 token 增加到 34 个 token,这与他们因 CPU 负载增加而预期性能下降的看法相悖。该用户还在询问如何进一步优化他们的设置,该设置包括 12GB VRAM 和 32GB RAM,并使用 llama.cpp 和 TurboQuant 变体。 AI

排序理由 这是一个关于特定技术配置的用户生成问题,而不是一般的行业公告或发展。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/MackTuesday ·

    有人能帮忙解释一下这些结果吗?

    <!-- SC_OFF --><div class="md"><p>I'm running Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf on 12 GB VRAM and 32 GB RAM via the TurboQuant variant of llama.cpp. I increased the --n-cpu-moe value from 8 to 30, and my inference rate doubled! (17 to 34 tok/s). Shouldn't it have slowed down from t…