PulseAugur
实时 10:38:42
English(EN) Weird to get near linear scaling by adding another GPU?

用户为 Qwen LLM 双 GPU 配置实现近乎线性扩展

Reddit r/LocalLLaMA 论坛上一位用户报告称,通过为他们的设置增加第二块 GPU,实现了近乎线性的性能扩展。在使用 Qwen 3.6-27B-autoround-int4 模型时,将 GPU 从一块增加到两块,在叙事和代码任务的解码吞吐量方面都有显著提升。即使没有 NVLink,利用张量并行和 P2P 通信也观察到了这种改进。 AI

影响 展示了本地 LLM 部署在多 GPU 配置下提高推理性能的潜力。

排序理由 用户生成的关于模型硬件性能扩展的报告。[lever_c_demoted from research: ic=1 ai=0.7]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/Civil_Fee_7862 ·

    增加另一块 GPU 就能获得近乎线性的扩展,这会不会太奇怪了?

    <!-- SC_OFF --><div class="md"><p>Single steam benchmarks (club-3090)</p> <p>model:</p> <pre><code>qwen3.6-27b-autoround-int4 </code></pre> <p><strong>BEFORE:</strong></p> <p>1x3090</p> <p>*Their default script recipe for single 3090'*s <em>(4-bit quant and 4-bit kv cache, mtp=2)…