English(EN) GLM-5.2 UD-IQ1_M on llama.cpp — 5090 + 3090 Ti speed test (~ 579 t/s prefill @ 8k ctx, ~324 t/s prefill @ 57k ctx, ~10.6 t/s decode)

GLM-5.2 UD-IQ1_M 在 llama.cpp 上的速度测试显示预填充速度为 579 t/s

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-22 14:17

一位 Reddit 用户分享了在 llama.cpp 上运行 GLM-5.2 UD-IQ1_M 模型时的性能基准测试。测试使用了 RTX 5090 和 RTX 3090 Ti，报告称在 8k 上下文窗口下的预填充速度约为 579 token/秒，在 57k 上下文窗口下的预填充速度约为 324 token/秒。Token 生成速度，即解码速度，测量约为 10.6 token/秒。 AI

影响提供了在本地运行大型语言模型的具体性能数据，帮助开发者进行硬件和软件选择。

排序理由用户生成的特定模型和软件组合的性能基准测试。

在 r/LocalLLaMA 阅读 →

基础设施

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

GLM-5.2 UD-IQ1_M 在 llama.cpp 上的速度测试显示预填充速度为 579 t/s

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/Shoddy_Bed3240 · 2026-06-22 14:17

GLM-5.2 UD-IQ1_M on llama.cpp — 5090 + 3090 Ti speed test (~ 579 t/s prefill @ 8k ctx, ~324 t/s prefill @ 57k ctx, ~10.6 t/s decode)

<div class="md">Just sharing some speed test numbers for GLM-5.2 running on llama.cpp. Setup: <ul> <li>Model: unsloth/GLM-5.2-GGUF, UD-IQ1_M quant</li> <li>GPUs: RTX 5090 + RTX 3090 Ti</li> <li>186 GB DDR5 used</li> <li>Debian 13</li>…

报道来源 [1]

GLM-5.2 UD-IQ1_M on llama.cpp — 5090 + 3090 Ti speed test (~ 579 t/s prefill @ 8k ctx, ~324 t/s prefill @ 57k ctx, ~10.6 t/s decode)

相关实体

相关话题