r/LocalLLaMA 子版块的一位用户在使用 llama-server 路由模式时遇到了一个问题:每个模型实例,即使被固定到特定 GPU,也会在所有可用 GPU 上分配 CUDA 上下文。这种行为会导致运行多个模型时出现内存不足 (OOM) 错误,特别是当一个大模型消耗了某些卡上的大部分显存时,导致较小的模型无法在其他 GPU 上初始化其上下文。用户正在寻求解决方案,例如特定的标志或配置,以防止在未使用的 GPU 上分配上下文,或者正在寻找其他策略来管理多个小型模型和偶尔部署的单个大型模型的 GPU 资源。 AI
排序理由 用户关于特定软件配置问题的提问,而非普遍的行业趋势或发布。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →