English(EN) GLM 5.2 on Mac Studio Speedup PR

GLM 5.2 提升 Mac Studio 运行大上下文模型性能

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-23 16:39

GLM 模型的新版本 5.2 已发布，并在 Mac Studio 硬件上提供了显著的速度提升。此次更新使得即使在大上下文窗口下，预填充速度也能超过每秒 100 个 token，同时还减少了内存使用。这些增强功能使用户能够在其拥有 512GB 内存的 Mac 设备上运行上下文窗口超过 10 万个 token 的 4 位量化模型。 AI

影响提升了在特定 Apple 硬件上本地部署 LLM 的性能，为 4 位量化模型提供了更大的上下文窗口。

排序理由这是对特定模型版本的更新，改进了在特定硬件上的性能，而不是发布新的前沿模型或重大的行业性事件。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/nomorebuttsplz · 2026-06-23 16:39

GLM 5.2 在 Mac Studio 上加速 PR

<div class="md"><p>Just a heads up for the lucky few 512 gb mac owners: GLM 5.2 is a game changer because prefill speeds stay above 100 t/s at much higher context, and also take less space, so we can run 4 bit quants well above 100k context. See this PR by the oMLX…

报道来源 [1]

GLM 5.2 在 Mac Studio 上加速 PR

相关实体

相关话题