PulseAugur
实时 07:03:49
English(EN) Can't get over 250TPS on RTX5090 with Qwen3.5-4B

RTX 5090 难以在 Qwen3.5-4B 模型上超过 250 TPS

Reddit 的 r/LocalLLaMA 论坛上一位用户在使用 RTX 5090 GPU 运行 Qwen3.5-4B 模型时遇到了性能问题。尽管使用了高端 GPU,用户仅实现了约每秒 250 个 token 的吞吐量,远低于小型模型的预期。他们尝试了不同的配置,包括不同的 Docker 镜像和 LM Studio,但瓶颈依然存在,GPU 利用率很低。 AI

影响 用户报告称在高端硬件上运行小型模型时性能低下,表明可能存在优化问题。

排序理由 用户报告了特定模型和硬件配置的性能问题。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/luckyj ·

    Can't get over 250TPS on RTX5090 with Qwen3.5-4B

    <!-- SC_OFF --><div class="md"><p>My main model is qwen3.6-27b-mtp and I'm getting around 100tps and 2500tps prefill, which is great. I've tried adding a second small model for auxiliary tasks, and even when it's the only model running, it doesn't go over 200-250tps.</p> <p>I'm b…