中文(ZH) oMLX vs Ollama Mac 本地推論Qwen3.5–35B實測

在 Mac 上，oMLX 的本地 LLM 推理速度是 Ollama 的 7 倍

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-13 04:17

对 oMLX 和 Ollama 在 Mac Studio M2 Max 上运行 Qwen3.5-35B 模型进行了性能对比，结果显示速度差异显著。oMLX 利用 Apple Silicon 的原生 MLX 框架，与使用 GGUF 后端的 Ollama 相比，其 token 生成速度快了 35%，多轮对话延迟降低了 7 倍。这种性能提升归功于 oMLX 优化的 Metal 内核和高效的流水线集成，特别是在处理 prompt 评估和连续批处理方面，包括 SSD KV Cache 等独特功能。 AI

影响 oMLX 为 Mac 上的本地 LLM 推理带来了显著的性能提升，特别是通过大幅降低多轮对话延迟，对编码助手等交互式应用尤为有利。

排序理由在特定硬件和模型上对两个推理引擎进行的对比基准测试。[lever_c_demoted from research: ic=1 ai=0.7]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

dev.to — LLM tag TIER_1 中文(ZH) · JH5 · 2026-06-13 06:26

oMLX vs Ollama Mac Local Inference Qwen3.5-35B Actual Test

<h1> 同一顆 35B 模型，快 7 倍：oMLX vs Ollama Mac 本地推論完整對決 </h1> <blockquote> <p>Mac Studio M2 Max 96GB 上，同一顆 Qwen3.5-35B-A3B 模型的循序盲測比較</p> </blockquote> <p>Mac Studio M2 Max 跌 Ollama + Qwen3.5-35B，多輪對話延遲是 30 秒。換成 oMLX 同一顏模型，降到 4 秒——不是因為換了更強的模型，而是因為換了推論後端。</p> <p>這篇就是那次切換的完整測試紀錄。同一台機器、同一顆…
dev.to — LLM tag TIER_1 中文(ZH) · JH5 · 2026-06-13 04:17

oMLX vs Ollama Mac Local Inference Qwen3.5-35B Actual Test

<h1> 同一顆 35B 模型，快 7 倍：oMLX vs Ollama Mac 本地推論完整對決 </h1> <blockquote> <p>Mac Studio M2 Max 96GB 上，同一顆 Qwen3.5-35B-A3B 模型的循序盲測比較</p> </blockquote> <p>Mac Studio M2 Max 跌 Ollama + Qwen3.5-35B，多輪對話延遲是 30 秒。換成 oMLX 同一顏模型，降到 4 秒——不是因為換了更強的模型，而是因為換了推論後端。</p> <p>這篇就是那次切換的完整測試紀錄。同一台機器、同一顆…

报道来源 [2]

oMLX vs Ollama Mac Local Inference Qwen3.5-35B Actual Test

oMLX vs Ollama Mac Local Inference Qwen3.5-35B Actual Test

相关实体

相关话题