一位 Reddit r/LocalLLaMA 社区的用户在使用 Qwen 3.6 27B 模型时,遇到了与投机解码相关的特定参数导致推理速度和 GPU 利用率显著下降的问题。当包含 `--spec-type draft-mtp` 和 `--spec-draft-n-max` 等参数时,他们的吞吐量从每秒 70 个 token 下降到每秒 30 个 token,GPU 功耗也随之大幅降低。用户怀疑这可能是 llama.cpp 最近更新导致的问题,因为之前的性能要高得多。 AI
影响 开源 LLM 推理引擎中潜在的性能回归会影响本地部署的效率。
排序理由 用户报告的开源模型和推理引擎性能问题。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →