GLM 模型的新版本 5.2 已发布,并在 Mac Studio 硬件上提供了显著的速度提升。此次更新使得即使在大上下文窗口下,预填充速度也能超过每秒 100 个 token,同时还减少了内存使用。这些增强功能使用户能够在其拥有 512GB 内存的 Mac 设备上运行上下文窗口超过 10 万个 token 的 4 位量化模型。 AI
影响 提升了在特定 Apple 硬件上本地部署 LLM 的性能,为 4 位量化模型提供了更大的上下文窗口。
排序理由 这是对特定模型版本的更新,改进了在特定硬件上的性能,而不是发布新的前沿模型或重大的行业性事件。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →