一位 Reddit 用户分享了他在消费级硬件上运行 Qwen 3.6 35B 模型的经验,该配置包括一块 RTX 3080 GPU 和 32GB RAM。在 32k 的上下文长度下,他实现了 26 tokens/秒的生成吞吐量和 1400 tokens/秒的处理吞吐量。虽然将 KV 缓存卸载到 GPU 可以将生成速度提高到 56 tokens/秒,但这会限制上下文窗口,不适合他涉及深度研究和文档处理的代理工作。 AI
影响 为在本地运行大型模型提供了性能数据点,让用户了解消费级 GPU 上可实现的生成速度和上下文长度。
排序理由 用户分享的特定模型在消费级硬件上的基准测试和配置详情。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →