English(EN) GLM 5.2, what speeds are we getting locally?

用户分享 GLM-5.2 本地性能基准测试

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-20 20:11

r/LocalLLaMA 子版块的用户正在讨论 GLM-5.2 模型在本地运行时的性能。参与者正在分享他们的系统规格，包括硬件、量化方法和上下文大小，以及他们观察到的每秒 token 推理速度。目标是收集实际性能数据，以了解最佳配置和潜在的瓶颈。 AI

影响提供社区驱动的关于 GLM-5.2 实际性能的见解，帮助用户进行本地部署和优化。

排序理由用户生成关于特定模型版本的讨论和性能分享，而非官方发布或基准测试。

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/neverbyte · 2026-06-20 20:11

GLM 5.2, what speeds are we getting locally?

<div class="md"><p>Can everyone that is able to run GLM 5.2 locally report what their inference engine, system specs, quantization, context size, and tokens/sec? If you're getting great numbers expect follow-up questions. I'll start:</p> <p>llamma.cpp, 6x RTX 3090,…