一位 Reddit 用户分享了在 llama.cpp 上运行 GLM-5.2 UD-IQ1_M 模型时的性能基准测试。测试使用了 RTX 5090 和 RTX 3090 Ti,报告称在 8k 上下文窗口下的预填充速度约为 579 token/秒,在 57k 上下文窗口下的预填充速度约为 324 token/秒。Token 生成速度,即解码速度,测量约为 10.6 token/秒。 AI
影响 提供了在本地运行大型语言模型的具体性能数据,帮助开发者进行硬件和软件选择。
排序理由 用户生成的特定模型和软件组合的性能基准测试。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →