English(EN) Can't get over 250TPS on RTX5090 with Qwen3.5-4B

RTX 5090 难以在 Qwen3.5-4B 模型上超过 250 TPS

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-30 13:33

Reddit 的 r/LocalLLaMA 论坛上一位用户在使用 RTX 5090 GPU 运行 Qwen3.5-4B 模型时遇到了性能问题。尽管使用了高端 GPU，用户仅实现了约每秒 250 个 token 的吞吐量，远低于小型模型的预期。他们尝试了不同的配置，包括不同的 Docker 镜像和 LM Studio，但瓶颈依然存在，GPU 利用率很低。 AI

影响用户报告称在高端硬件上运行小型模型时性能低下，表明可能存在优化问题。

排序理由用户报告了特定模型和硬件配置的性能问题。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/luckyj · 2026-05-30 13:33

Can't get over 250TPS on RTX5090 with Qwen3.5-4B

<div class="md"><p>My main model is qwen3.6-27b-mtp and I'm getting around 100tps and 2500tps prefill, which is great. I've tried adding a second small model for auxiliary tasks, and even when it's the only model running, it doesn't go over 200-250tps.</p> <p>I'm b…

报道来源 [1]

Can't get over 250TPS on RTX5090 with Qwen3.5-4B

相关实体

相关话题