PulseAugur
实时 07:25:36
English(EN) Running a 35B MoE (Qwen3.6-35B-A3B) on 2x GTX 1080 Ti in 2026 — Real Benchmarks, and Does the Second GPU Actually Help?

35B MoE模型在双1080 Ti GPU上运行,并辅以CPU RAM

一位用户成功地在两块8年前的NVIDIA GTX 1080 Ti显卡上运行了Qwen3.6-35B-A3B,这是一个拥有350亿参数的混合专家(MoE)模型。该设置利用CPU RAM来存储模型的大部分权重,只有活跃的专家能够放入合并后的22GB显存中。这种配置大约能达到每秒20个token的吞吐量,表明即使是较旧的硬件,通过适当的量化和内存管理技术,也可以运行稀疏MoE模型。 AI

影响 证明了通过仔细优化,较旧的消费级硬件也可以运行大型MoE模型,这可能降低实验的门槛。

排序理由 用户在旧硬件上运行特定模型的基准测试。[lever_c_demoted from research: ic=1 ai=0.7]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. dev.to — LLM tag TIER_1 English(EN) · byeongsoo kang ·

    2026年用2块GTX 1080 Ti运行35B MoE (Qwen3.6-35B-A3B) — 真实基准测试,以及第二块GPU真的有帮助吗?

    <h2> TL;DR (Quick Answer) </h2> <p>I actually ran <strong>Qwen3.6-35B-A3B</strong> — a 35B-parameter mixture-of-experts model (only 3B active per token) — on a pair of <strong>8-year-old GTX 1080 Ti</strong> cards (22 GB combined). Real, measured numbers:</p> <ul> <li> <strong>Ge…