Reddit r/LocalLLaMA 子版块的一位用户分享了他们运行 Q8 量化的 Qwen3.6-27B 模型的设置。通过在 RTX 5090 和 RTX 3090 Ti 之间切换到张量拆分模式,他们实现了每秒超过 100 个 token 的吞吐量,相比之前的层拆分设置有了显著提升。该配置涉及 70/30 的张量拆分,偏向于更强大的 5090,并且仅 GPU 就消耗了超过 750W 的功率。 AI
影响 展示了本地 LLM 部署的高效多 GPU 推理配置。
排序理由 用户分享的在消费级硬件上运行特定 LLM 的配置。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →