PulseAugur
实时 08:13:08
Svenska(SV) vLLM vs llama.cpp vs Ollama: What Happens When Your Model Doesn't Fit in 24GB VRAM

LLM 推理工具 vLLM、llama.cpp、Ollama 在显存限制下的基准测试

vLLMllama.cppOllama 的基准测试比较揭示了性能上的显著差异,尤其是在处理超出可用显存的大型语言模型时。虽然 vLLM 在 24GB 显存内吞吐量表现出色,并发增加时可达 5.4 倍的扩展,但当模型需要超过约 22GB 时则完全失败。相比之下,llama.cpp 和 Ollama 可以通过溢出到系统内存来处理这些更大的模型,尽管速度要慢得多,每秒只有个位数 token。值得注意的是,与 Ollama 的自动方法相比,llama.cpp 在手动卸载层时在首次 token 时间方面显示出显著优势。 AI

影响 突出了 LLM 推理工具在性能上的差异,根据硬件限制和模型大小指导用户做出最佳选择。

排序理由 该项目对运行大型语言模型的不同软件工具进行了基准测试和比较,重点关注性能特征和限制。[lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

LLM 推理工具 vLLM、llama.cpp、Ollama 在显存限制下的基准测试

报道来源 [1]

  1. dev.to — LLM tag TIER_1 Svenska(SV) · Arsen Apostolov ·

    vLLM 对决 llama.cpp 对决 Ollama:当模型无法装入 24GB 显存时会发生什么

    <h2> TL;DR </h2> <p>Benchmarked <strong>llama.cpp, Ollama, and vLLM</strong> across <strong>5 models (1B to 116.8B params)</strong> on one <strong>RTX 3090 (24GB) + 128GB RAM</strong> home-lab box, priced through <a href="https://github.com/SikamikanikoBG/homelab-monitor" rel="no…