一位 Reddit r/LocalLLaMA 版块的用户正在寻找更有效的方法来优化 llama.cpp 的 VRAM 使用,特别是针对跨多个 GPU 的专家混合(MoE)模型。他们目前依赖于手动调整 `--ngl` 和 `--tensor-split` 参数,这非常耗时且会留下未使用的 VRAM。用户正在询问除了 `--tensor-split` 之外的更高级技术,以最大限度地提高 VRAM 利用率,从而获得更好的速度和模型加载。 AI
影响 用户正在探索最大化硬件效率以在本地运行大型模型的方法。
排序理由 用户讨论优化现有工具,并非新发布或重大进展。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →