一位用户详细介绍了在本地运行 GLM-5.2 UD-IQ2_M 模型时的体验,在四块 RTX 3090 GPU 和 192GB RAM 上实现了约 7.3 tokens/秒的吞吐量。他们发现将量化级别从 IQ2 减半到 IQ1 对速度没有影响,而将 CPU 线程从 6 增加到 12 则使性能提升了 22%。用户得出结论,解码速度主要受限于卸载专家(offloaded experts)的 CPU 计算能力,而非内存带宽,并且禁用模型的“思考”或推理能力可以显著加快响应时间。 AI
影响 提供了优化本地 LLM 推理性能和硬件利用率的见解。
排序理由 用户生成的关于在自定义硬件配置下本地运行特定 LLM 的指南。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →