English(EN) Weird to get near linear scaling by adding another GPU?

用户为 Qwen LLM 双 GPU 配置实现近乎线性扩展

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-08 08:26

Reddit r/LocalLLaMA 论坛上一位用户报告称，通过为他们的设置增加第二块 GPU，实现了近乎线性的性能扩展。在使用 Qwen 3.6-27B-autoround-int4 模型时，将 GPU 从一块增加到两块，在叙事和代码任务的解码吞吐量方面都有显著提升。即使没有 NVLink，利用张量并行和 P2P 通信也观察到了这种改进。 AI

影响展示了本地 LLM 部署在多 GPU 配置下提高推理性能的潜力。

排序理由用户生成的关于模型硬件性能扩展的报告。[lever_c_demoted from research: ic=1 ai=0.7]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/Civil_Fee_7862 · 2026-06-08 08:26

增加另一块 GPU 就能获得近乎线性的扩展，这会不会太奇怪了？

<div class="md">Single steam benchmarks (club-3090) model: <pre><code>qwen3.6-27b-autoround-int4 </code></pre> BEFORE: 1x3090 *Their default script recipe for single 3090'*s (4-bit quant and 4-bit kv cache, mtp=2)…

报道来源 [1]

增加另一块 GPU 就能获得近乎线性的扩展，这会不会太奇怪了？

相关实体

相关话题