English(EN) RTX 4070 + Qwen 35B: 2.8x Speedup From One llama.cpp Flag (--cpu-moe)

llama.cpp 标志将 RTX 4070 上 Qwen 35B 模型速度提升 2.8 倍

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-01 13:00

一份技术指南演示了如何在 RTX 4070 GPU（12GB VRAM）上运行 Qwen3.5-35B-A3B 模型时实现 2.8 倍的速度提升。实现这一性能提升的关键在于使用 `llama.cpp` 框架并设置特定标志：`-ngl 99` 将所有模型层卸载到 GPU，而 `--cpu-moe` 则将专家混合（MoE）层保留在 CPU 上。这种策略对于 MoE 模型尤其有效，因为每个 token 仅激活一小部分专家，当 VRAM 有限时，将所有专家都加载到 GPU 上效率低下。该指南还提供了不同卸载配置的测试，以帮助用户确定针对不同 VRAM 级别的最佳设置。 AI

影响优化消费级硬件上的 LLM 推理速度，使大型模型更易于访问。

排序理由关于使用特定软件标志优化特定模型性能的技术指南。

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

llama.cpp 标志将 RTX 4070 上 Qwen 35B 模型速度提升 2.8 倍

报道来源 [1]

dev.to — LLM tag TIER_1 English(EN) · Ken Imoto · 2026-07-01 13:00

RTX 4070 + Qwen 35B：一个 llama.cpp 标志（--cpu-moe）带来 2.8 倍加速

The Ollama defaults gave me 12.2 tok/s on Qwen3.5-35B-A3B against an RTX 4070 (12 GB). I switched to <code>llama.cpp</code> with two flags and got 34.6 tok/s. 2.8x. The two flags were <code>-ngl 99</code> (offload all layers to GPU) and…

报道来源 [1]

RTX 4070 + Qwen 35B：一个 llama.cpp 标志（--cpu-moe）带来 2.8 倍加速

相关实体

相关话题