Deutsch(DE) Qwen 3.6 benchmarks on 2x RTX PRO 6000

Qwen 3.6 LLM 基准测试显示在双 RTX PRO 6000 上具有高吞吐量

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-25 06:35

一位 Reddit 用户分享了 Qwen 3.6 大型语言模型的性能基准测试，特别是测试了 27B 和 35B 参数版本。测试使用配备两块 RTX PRO 6000 GPU 和最新稳定版 VLLM 后端的设置进行。结果表明，吞吐量因并发级别和是否启用多轮提示（MTP）而异，其中 35B 模型在 128 并发下可达到每秒 3500 个 token。 AI

影响提供了 Qwen 3.6 的性能数据，帮助开发者在本地 LLM 应用中进行硬件选择和部署。

排序理由开源模型发布的由用户生成的基准测试。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 Deutsch(DE) · /u/mxforest · 2026-05-25 06:35

Qwen 3.6 benchmarks on 2x RTX PRO 6000

<div class="md"><p>Got a chance to play around with 2x RTX PRO 6000 setup so sharing some number for Qwen 3.6.<br /> All these were run using latest stable VLLM backend. This was for a personal project.</p> <p>Qwen 3.6 27B BF16 (Original without any quantization)</…

报道来源 [1]

Qwen 3.6 benchmarks on 2x RTX PRO 6000

相关实体

相关话题