English(EN) On-device LLM on iPhone: which runtime is fastest? MLX vs llama.cpp vs LiteRT-LM vs CoreML

MLX、LiteRT-LM 和 CoreML 在 iPhone 大模型性能方面进行基准测试

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 05:56

最近的一项基准测试在 iPhone 17 Pro 上测试了四种端侧大模型运行时，比较了解码速度和内存使用情况。对于 Qwen 3.5 2B 等通用模型，MLX 速度最快；而 LiteRT-LM 在 Gemma 4 E2B 模型上表现尤为出色。在内存受限的情况下，使用 Apple Neural Engine 的 CoreML 具有显著优势，消耗的 RAM 大大减少。 AI

影响为开发者选择 iPhone 端侧大模型运行时提供了关键性能数据，影响应用程序效率和用户体验。

排序理由针对特定硬件平台比较多种软件运行时的基准测试研究。[lever_c_demoted from research: ic=1 ai=0.7]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

MLX、LiteRT-LM 和 CoreML 在 iPhone 大模型性能方面进行基准测试

报道来源 [1]

dev.to — LLM tag TIER_1 English(EN) · Daisuke Majima · 2026-06-02 05:56

iPhone 端侧大模型：哪个运行时最快？MLX vs llama.cpp vs LiteRT-LM vs CoreML

<p><strong>I want to run an LLM on iPhone.</strong><br /> But <strong>there are several runtimes and it's not obvious which to pick.</strong></p> <p>And I couldn't find many head-to-head benchmarks.</p> <div class="table-wrapper-paragraph"><table> <thead> <tr> <th>Runtime</th> <t…

报道来源 [1]

iPhone 端侧大模型：哪个运行时最快？MLX vs llama.cpp vs LiteRT-LM vs CoreML

相关实体

相关话题