PulseAugur
实时 08:30:20
中文(ZH) oMLX vs Ollama Mac 本地推論Qwen3.5–35B實測

在 Mac 上,oMLX 的本地 LLM 推理速度是 Ollama 的 7 倍

oMLXOllamaMac Studio M2 Max 上运行 Qwen3.5-35B 模型进行了性能对比,结果显示速度差异显著。oMLX 利用 Apple Silicon 的原生 MLX 框架,与使用 GGUF 后端的 Ollama 相比,其 token 生成速度快了 35%,多轮对话延迟降低了 7 倍。这种性能提升归功于 oMLX 优化的 Metal 内核和高效的流水线集成,特别是在处理 prompt 评估和连续批处理方面,包括 SSD KV Cache 等独特功能。 AI

影响 oMLX 为 Mac 上的本地 LLM 推理带来了显著的性能提升,特别是通过大幅降低多轮对话延迟,对编码助手等交互式应用尤为有利。

排序理由 在特定硬件和模型上对两个推理引擎进行的对比基准测试。[lever_c_demoted from research: ic=1 ai=0.7]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. dev.to — LLM tag TIER_1 中文(ZH) · JH5 ·

    oMLX vs Ollama Mac Local Inference Qwen3.5-35B Actual Test

    <h1> 同一顆 35B 模型,快 7 倍:oMLX vs Ollama Mac 本地推論完整對決 </h1> <blockquote> <p>Mac Studio M2 Max 96GB 上,同一顆 Qwen3.5-35B-A3B 模型的循序盲測比較</p> </blockquote> <p>Mac Studio M2 Max 跌 Ollama + Qwen3.5-35B,多輪對話延遲是 30 秒。換成 oMLX 同一顏模型,降到 4 秒——不是因為換了更強的模型,而是因為換了推論後端。</p> <p>這篇就是那次切換的完整測試紀錄。同一台機器、同一顆…

  2. dev.to — LLM tag TIER_1 中文(ZH) · JH5 ·

    oMLX vs Ollama Mac Local Inference Qwen3.5-35B Actual Test

    <h1> 同一顆 35B 模型,快 7 倍:oMLX vs Ollama Mac 本地推論完整對決 </h1> <blockquote> <p>Mac Studio M2 Max 96GB 上,同一顆 Qwen3.5-35B-A3B 模型的循序盲測比較</p> </blockquote> <p>Mac Studio M2 Max 跌 Ollama + Qwen3.5-35B,多輪對話延遲是 30 秒。換成 oMLX 同一顏模型,降到 4 秒——不是因為換了更強的模型,而是因為換了推論後端。</p> <p>這篇就是那次切換的完整測試紀錄。同一台機器、同一顆…