English(EN) Running a 35B MoE (Qwen3.6-35B-A3B) on 2x GTX 1080 Ti in 2026 — Real Benchmarks, and Does the Second GPU Actually Help?

35B MoE模型在双1080 Ti GPU上运行，并辅以CPU RAM

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-03 05:18

一位用户成功地在两块8年前的NVIDIA GTX 1080 Ti显卡上运行了Qwen3.6-35B-A3B，这是一个拥有350亿参数的混合专家（MoE）模型。该设置利用CPU RAM来存储模型的大部分权重，只有活跃的专家能够放入合并后的22GB显存中。这种配置大约能达到每秒20个token的吞吐量，表明即使是较旧的硬件，通过适当的量化和内存管理技术，也可以运行稀疏MoE模型。 AI

影响证明了通过仔细优化，较旧的消费级硬件也可以运行大型MoE模型，这可能降低实验的门槛。

排序理由用户在旧硬件上运行特定模型的基准测试。[lever_c_demoted from research: ic=1 ai=0.7]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

dev.to — LLM tag TIER_1 English(EN) · byeongsoo kang · 2026-06-03 05:18

2026年用2块GTX 1080 Ti运行35B MoE (Qwen3.6-35B-A3B) — 真实基准测试，以及第二块GPU真的有帮助吗？

<h2> TL;DR (Quick Answer) </h2> <p>I actually ran <strong>Qwen3.6-35B-A3B</strong> — a 35B-parameter mixture-of-experts model (only 3B active per token) — on a pair of <strong>8-year-old GTX 1080 Ti</strong> cards (22 GB combined). Real, measured numbers:</p> <ul> <li> <strong>Ge…

报道来源 [1]

2026年用2块GTX 1080 Ti运行35B MoE (Qwen3.6-35B-A3B) — 真实基准测试，以及第二块GPU真的有帮助吗？

相关实体

相关话题