PulseAugur
实时 01:05:07
English(EN) RTX 4070 + Qwen 35B: 2.8x Speedup From One llama.cpp Flag (--cpu-moe)

llama.cpp 标志将 RTX 4070 上 Qwen 35B 模型速度提升 2.8 倍

一份技术指南演示了如何在 RTX 4070 GPU(12GB VRAM)上运行 Qwen3.5-35B-A3B 模型时实现 2.8 倍的速度提升。实现这一性能提升的关键在于使用 `llama.cpp` 框架并设置特定标志:`-ngl 99` 将所有模型层卸载到 GPU,而 `--cpu-moe` 则将专家混合(MoE)层保留在 CPU 上。这种策略对于 MoE 模型尤其有效,因为每个 token 仅激活一小部分专家,当 VRAM 有限时,将所有专家都加载到 GPU 上效率低下。该指南还提供了不同卸载配置的测试,以帮助用户确定针对不同 VRAM 级别的最佳设置。 AI

影响 优化消费级硬件上的 LLM 推理速度,使大型模型更易于访问。

排序理由 关于使用特定软件标志优化特定模型性能的技术指南。

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

llama.cpp 标志将 RTX 4070 上 Qwen 35B 模型速度提升 2.8 倍

报道来源 [1]

  1. dev.to — LLM tag TIER_1 English(EN) · Ken Imoto ·

    RTX 4070 + Qwen 35B:一个 llama.cpp 标志(--cpu-moe)带来 2.8 倍加速

    <p>The Ollama defaults gave me <strong>12.2 tok/s</strong> on Qwen3.5-35B-A3B against an RTX 4070 (12 GB). I switched to <code>llama.cpp</code> with two flags and got <strong>34.6 tok/s</strong>. 2.8x.</p> <p>The two flags were <code>-ngl 99</code> (offload all layers to GPU) and…