一位用户成功地在两块8年前的NVIDIA GTX 1080 Ti显卡上运行了Qwen3.6-35B-A3B,这是一个拥有350亿参数的混合专家(MoE)模型。该设置利用CPU RAM来存储模型的大部分权重,只有活跃的专家能够放入合并后的22GB显存中。这种配置大约能达到每秒20个token的吞吐量,表明即使是较旧的硬件,通过适当的量化和内存管理技术,也可以运行稀疏MoE模型。 AI
影响 证明了通过仔细优化,较旧的消费级硬件也可以运行大型MoE模型,这可能降低实验的门槛。
排序理由 用户在旧硬件上运行特定模型的基准测试。[lever_c_demoted from research: ic=1 ai=0.7]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →