English(EN) Best tps can I get with Qwen3.5 122B on 32GB VRAM + 64GB RAM?

用户寻求在消费级硬件上提升 Qwen3.5-122B 的性能

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-01 13:37

一位用户正在寻求优化 Qwen3.5-122B 大型语言模型在其硬件上的性能，该硬件包括 32GB VRAM 和 64GB RAM。他们目前遇到的 token 生成速度在每秒 6 到 20 个 token 之间，并正在寻找提高吞吐量的方法。用户已分享了他们的具体命令行参数和输出日志，以帮助诊断问题并找到潜在的解决方案。 AI

影响此查询突显了在消费级硬件上高效本地部署大型语言模型的持续挑战和社区努力。

排序理由用户关于在消费级硬件上优化特定 LLM 性能的查询。

在 r/LocalLLaMA 阅读 →

Qwen3.5-122B

基础设施

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/BitGreen1270 · 2026-07-01 13:37

Best tps can I get with Qwen3.5 122B on 32GB VRAM + 64GB RAM?

<div class="md"><p>My attempt at running Qwen3.5 122B on my 5090 (32GB VRAM) + 64GB RAM is really bleak. I'm getting a speed that starts at 6 tps and ends at ~20 tps. Can I improve this further?</p> <p><code> build/bin/llama-server \ -m ~/myp/models/unsloth/qwen3.5…

报道来源 [1]

Best tps can I get with Qwen3.5 122B on 32GB VRAM + 64GB RAM?

相关实体

相关话题