English(EN) GPU VRAM only for small models with llama.cpp: is it possible?

LocalLLaMA 用户寻求小型模型的 VRAM 优化

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-24 15:02

一位 r/LocalLLaMA 子版块的用户正在寻求帮助，以优化其 GPU VRAM 使用量来运行小型语言模型。尽管他们已成功运行 Gemma4 26B 和 Qwen 3.6 35B MoEs 等大型模型，但他们在运行 Gemma4-2B 等小型模型时仍遇到问题，这些模型仍在使用系统 RAM。该用户已尝试了 llama.cpp 的各种命令行选项，但尚未在不依赖主机内存的情况下实现完全的 VRAM 利用。 AI

排序理由用户在关于使用特定软件工具在本地运行模型的利基子版块上生成的内容。

在 r/LocalLLaMA 阅读 →

其他

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/Ps3Dave · 2026-05-24 15:02

GPU显存仅够运行小型模型？llama.cpp能否实现？

<div class="md"><p>I'm still in my learning process and so far I've been able to make satisfying use of my setup (4070 with 12GB VRAM + 32GB RAM and iGPU for my GUI). I've been able to run both Gemma4 26B and Qwen 3.6 35B MoEs up to high quants with large context a…

报道来源 [1]

GPU显存仅够运行小型模型？llama.cpp能否实现？

相关实体

相关话题