PulseAugur
实时 23:06:12
Deutsch(DE) Qwen 3.6 benchmarks on 2x RTX PRO 6000

Qwen 3.6 LLM 基准测试显示在双 RTX PRO 6000 上具有高吞吐量

一位 Reddit 用户分享了 Qwen 3.6 大型语言模型的性能基准测试,特别是测试了 27B 和 35B 参数版本。测试使用配备两块 RTX PRO 6000 GPU 和最新稳定版 VLLM 后端的设置进行。结果表明,吞吐量因并发级别和是否启用多轮提示(MTP)而异,其中 35B 模型在 128 并发下可达到每秒 3500 个 token。 AI

影响 提供了 Qwen 3.6 的性能数据,帮助开发者在本地 LLM 应用中进行硬件选择和部署。

排序理由 开源模型发布的由用户生成的基准测试。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/LocalLLaMA TIER_1 Deutsch(DE) · /u/mxforest ·

    Qwen 3.6 benchmarks on 2x RTX PRO 6000

    <!-- SC_OFF --><div class="md"><p>Got a chance to play around with 2x RTX PRO 6000 setup so sharing some number for Qwen 3.6.<br /> All these were run using latest stable VLLM backend. This was for a personal project.</p> <p>Qwen 3.6 27B BF16 (Original without any quantization)</…