Reddit 的 r/LocalLLaMA 子版块上一名用户正在寻求帮助,以理解在运行 Qwen3.6-35B-A3B-UD-Q4_K_XL 模型时出现的意外性能提升。他们观察到,在将 `--n-cpu-moe` 参数从 8 增加到 30 后,推理速度翻了一番,从每秒 17 个 token 增加到 34 个 token,这与他们因 CPU 负载增加而预期性能下降的看法相悖。该用户还在询问如何进一步优化他们的设置,该设置包括 12GB VRAM 和 32GB RAM,并使用 llama.cpp 和 TurboQuant 变体。 AI
排序理由 这是一个关于特定技术配置的用户生成问题,而不是一般的行业公告或发展。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →