一位 r/LocalLLaMA 子版块的用户正在寻求帮助,以优化其 GPU VRAM 使用量来运行小型语言模型。尽管他们已成功运行 Gemma4 26B 和 Qwen 3.6 35B MoEs 等大型模型,但他们在运行 Gemma4-2B 等小型模型时仍遇到问题,这些模型仍在使用系统 RAM。该用户已尝试了 llama.cpp 的各种命令行选项,但尚未在不依赖主机内存的情况下实现完全的 VRAM 利用。 AI
排序理由 用户在关于使用特定软件工具在本地运行模型的利基子版块上生成的内容。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →