Reddit 的 r/LocalLLaMA 论坛上一位用户在使用 RTX 5090 GPU 运行 Qwen3.5-4B 模型时遇到了性能问题。尽管使用了高端 GPU,用户仅实现了约每秒 250 个 token 的吞吐量,远低于小型模型的预期。他们尝试了不同的配置,包括不同的 Docker 镜像和 LM Studio,但瓶颈依然存在,GPU 利用率很低。 AI
影响 用户报告称在高端硬件上运行小型模型时性能低下,表明可能存在优化问题。
排序理由 用户报告了特定模型和硬件配置的性能问题。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →