English(EN) Qwen3.6-27B at ~80 tps with 218k context window on 1x RTX 5090 served by vllm 0.19

Qwen3.6-27B 模型在单块 RTX 5090 上实现 80 TPS 和 218k 上下文

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-25 10:21

Reddit r/LocalLLaMA 社区的一位用户分享了使用 Qwen3.6-27B 模型实现高性能的细节。通过使用 NVFP4 和 MTP 量化以及 vLLM 0.19 推理服务器，他们在单块 RTX 5090 显卡上报告了约 80 tokens/秒的处理速度和 218,000 token 的上下文窗口。此设置建立在之前对 Qwen3.5-27B 模型的实验之上，展示了本地 LLM 部署效率的显著进步。 AI

影响展示了高效的本地大上下文模型部署，可能降低在消费级硬件上使用高级 LLM 的门槛。

排序理由特定模型版本的发布，性能指标由社区成员分享。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

Qwen3.6-27B 模型在单块 RTX 5090 上实现 80 TPS 和 218k 上下文

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/Kindly-Cantaloupe978 · 2026-04-25 10:21

Qwen3.6-27B 在 1x RTX 5090 上以约 80 tps 和 218k 上下文窗口运行，由 vllm 0.19 提供服务

<div class="md"><p>Qwen3.6-27B is out for a few days and the NVFP4 with MTP is dropped earlier on HF: <a href="https://huggingface.co/sakamakismile/Qwen3.6-27B-Text-NVFP4-MTP">https://huggingface.co/sakamakismile/Qwen3.6-27B-Text-NVFP4-MTP</a></p> <p>Can follow the…

报道来源 [1]

Qwen3.6-27B 在 1x RTX 5090 上以约 80 tps 和 218k 上下文窗口运行，由 vllm 0.19 提供服务

相关实体

相关话题