Deutsch(DE) Qwen 3.6 35B on RTX 3080 10GB + 7700X + 32GB DDR5

Qwen 3.6 35B 模型可在消费级硬件上运行，支持 32k 上下文

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-05 03:29

一位 Reddit 用户分享了他在消费级硬件上运行 Qwen 3.6 35B 模型的经验，该配置包括一块 RTX 3080 GPU 和 32GB RAM。在 32k 的上下文长度下，他实现了 26 tokens/秒的生成吞吐量和 1400 tokens/秒的处理吞吐量。虽然将 KV 缓存卸载到 GPU 可以将生成速度提高到 56 tokens/秒，但这会限制上下文窗口，不适合他涉及深度研究和文档处理的代理工作。 AI

影响为在本地运行大型模型提供了性能数据点，让用户了解消费级 GPU 上可实现的生成速度和上下文长度。

排序理由用户分享的特定模型在消费级硬件上的基准测试和配置详情。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 Deutsch(DE) · /u/AndreVallestero · 2026-06-05 03:29

Qwen 3.6 35B 在 RTX 3080 10GB + 7700X + 32GB DDR5 上

<div class="md">Environment: <ul> <li>GPU: RTX 3080 10GB</li> <li>CPU: Ryzen 7 7700x</li> <li>RAM: 32GB 6000mt/s</li> <li>OS: CachyOS</li> <li>engine: ik_llamacpp cuda llama-server \ --model "Qwen3.6-35B-A3B-UD-Q4_K_S.gguf" \ --n-gpu-laye…

报道来源 [1]

Qwen 3.6 35B 在 RTX 3080 10GB + 7700X + 32GB DDR5 上

相关实体

相关话题