Reddit r/LocalLLaMA 版块的一名用户在使用 Qwen 3.6-35B-A3B IQ4_XS 模型时,遇到了基准测试性能与实际生成速度之间存在显著差异的问题。尽管基准测试显示提示评估和生成速度的每秒 token 数都很高,但实际使用中性能却慢得多,提示评估为每 token 7.79 毫秒(128.30 tokens/秒),生成速度为每 token 125.31 毫秒(7.98 tokens/秒)。该用户正在寻求帮助,以找出其配置中可能存在的错误配置或问题,其配置包括一块 8GB VRAM 的 NVIDIA GeForce RTX 4060 Laptop GPU 和 16GB RAM,并运行着特定的 llama 服务器配置。 AI
影响 凸显了本地 LLM 部署和性能调优中可能存在的问题。
排序理由 用户关于在本地硬件上针对特定 LLM 进行性能调优的查询。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →