PulseAugur
实时 07:03:53
Deutsch(DE) Qwen 3.6 35B on RTX 3080 10GB + 7700X + 32GB DDR5

Qwen 3.6 35B 模型可在消费级硬件上运行,支持 32k 上下文

一位 Reddit 用户分享了他在消费级硬件上运行 Qwen 3.6 35B 模型的经验,该配置包括一块 RTX 3080 GPU 和 32GB RAM。在 32k 的上下文长度下,他实现了 26 tokens/秒的生成吞吐量和 1400 tokens/秒的处理吞吐量。虽然将 KV 缓存卸载到 GPU 可以将生成速度提高到 56 tokens/秒,但这会限制上下文窗口,不适合他涉及深度研究和文档处理的代理工作。 AI

影响 为在本地运行大型模型提供了性能数据点,让用户了解消费级 GPU 上可实现的生成速度和上下文长度。

排序理由 用户分享的特定模型在消费级硬件上的基准测试和配置详情。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/LocalLLaMA TIER_1 Deutsch(DE) · /u/AndreVallestero ·

    Qwen 3.6 35B 在 RTX 3080 10GB + 7700X + 32GB DDR5 上

    <!-- SC_OFF --><div class="md"><p>Environment:</p> <ul> <li>GPU: RTX 3080 10GB</li> <li>CPU: Ryzen 7 7700x</li> <li>RAM: 32GB 6000mt/s</li> <li>OS: CachyOS</li> <li><p>engine: ik_llamacpp cuda</p> <p>llama-server \ --model &quot;Qwen3.6-35B-A3B-UD-Q4_K_S.gguf&quot; \ --n-gpu-laye…