一位用户正在寻求优化 Qwen3.5-122B 大型语言模型在其硬件上的性能,该硬件包括 32GB VRAM 和 64GB RAM。他们目前遇到的 token 生成速度在每秒 6 到 20 个 token 之间,并正在寻找提高吞吐量的方法。用户已分享了他们的具体命令行参数和输出日志,以帮助诊断问题并找到潜在的解决方案。 AI
影响 此查询突显了在消费级硬件上高效本地部署大型语言模型的持续挑战和社区努力。
排序理由 用户关于在消费级硬件上优化特定 LLM 性能的查询。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →