English(EN) Mi50 32GB / GFX906 - vLLM Qwen 3.5 Configuration for Qwen 3.5:9B AWQ-4bit

用户寻求优化 MI50 GPU 上 Qwen 3.5 9B 推理的帮助

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-11 22:29

一位用户正在寻求帮助，以便在 MI50 32GB GPU 上为 Qwen 3.5 9B 模型配置以实现最佳本地推理。在使用特定的 vLLM 分支时，他们遇到的速度很慢，低于每秒 1 个 token。用户正在寻求指导以提高性能，并可能设置一个视觉/文本到文本模型或 Gemma 4 变体。 AI

影响此查询突显了优化本地 LLM 推理的挑战，特别是在特定的硬件和模型配置下。

排序理由用户生成内容，寻求模型配置和性能方面的帮助，而非发布或官方公告。

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/exaknight21 · 2026-06-11 22:29

Mi50 32GB / GFX906 - vLLM Qwen 3.5 配置用于 Qwen 3.5:9B AWQ-4bit

<div class="md">Hi All: I am trying to get the optimal local inference set up for my single Mi50 32 GB. I am trying to use ai-infos vLLM fork, (aiinfos/vllm-gfx906-mobydick:latest), but I am getting low speeds, sub 1 TPS. Has anyone gotten this mod…