English(EN) We added W8A8 activation quantization to MLX — prefill went from 2.84s to 2.52s on M5 Pro

Mininglamp AI 为 MLX 添加 W8A8 量化以加速 Apple Silicon 推理

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-25 08:16

Mininglamp AI 开发了 Cider，一个通过添加 W8A8 激活量化来增强 MLX 框架的新 SDK。此优化显著加快了 Apple Silicon 上大型视觉语言模型的预填充过程，将 M5 Pro 芯片上的预填充时间从 2.84 秒减少到 2.52 秒。该 SDK 利用自定义 Metal 内核，并为通过 MLX 运行的模型提供性能改进，尽管 INT8 TensorOps 仅限于 M5 及以上处理器。 AI

影响提高了 Apple Silicon 上 AI 模型的推理速度，可能加速本地 AI 的开发和部署。

排序理由这是一个软件工具发布，增强了现有框架，而不是核心模型发布或重大的行业范围事件。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

Mininglamp AI 为 MLX 添加 W8A8 量化以加速 Apple Silicon 推理

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/Enough-Astronaut9278 · 2026-05-25 08:16

我们在 MLX 中加入了 W8A8 激活量化 — M5 Pro 上的预填充从 2.84 秒缩短到 2.52 秒

<table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1tn2p61/we_added_w8a8_activation_quantization_to_mlx/"> <img alt="We added W8A8 activation quantization to MLX — prefill went from 2.84s to 2.52s on M5 Pro" src="https://preview.redd.it/uzenqmhoq83h1.png?width…

报道来源 [1]

我们在 MLX 中加入了 W8A8 激活量化 — M5 Pro 上的预填充从 2.84 秒缩短到 2.52 秒

相关实体

相关话题