一位 Reddit 用户分享了 Qwen 3.6 大型语言模型的性能基准测试,特别是测试了 27B 和 35B 参数版本。测试使用配备两块 RTX PRO 6000 GPU 和最新稳定版 VLLM 后端的设置进行。结果表明,吞吐量因并发级别和是否启用多轮提示(MTP)而异,其中 35B 模型在 128 并发下可达到每秒 3500 个 token。 AI
影响 提供了 Qwen 3.6 的性能数据,帮助开发者在本地 LLM 应用中进行硬件选择和部署。
排序理由 开源模型发布的由用户生成的基准测试。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →