English(EN) llama-server router: a model pinned to one GPU still grabs a CUDA context on every card, so it OOMs when my others are full. Am I missing a flag or is this just how it is?

llama-server 路由为所有 GPU 分配 CUDA 上下文，导致 OOM 错误

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-07 21:09

r/LocalLLaMA 子版块的一位用户在使用 llama-server 路由模式时遇到了一个问题：每个模型实例，即使被固定到特定 GPU，也会在所有可用 GPU 上分配 CUDA 上下文。这种行为会导致运行多个模型时出现内存不足 (OOM) 错误，特别是当一个大模型消耗了某些卡上的大部分显存时，导致较小的模型无法在其他 GPU 上初始化其上下文。用户正在寻求解决方案，例如特定的标志或配置，以防止在未使用的 GPU 上分配上下文，或者正在寻找其他策略来管理多个小型模型和偶尔部署的单个大型模型的 GPU 资源。 AI

排序理由用户关于特定软件配置问题的提问，而非普遍的行业趋势或发布。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/HockeyDadNinja · 2026-06-07 21:09

llama-server 路由器：即使模型固定在某个 GPU 上，每次仍会占用所有卡的 CUDA 上下文，导致其他卡满时 OOM。我是否遗漏了某个标志，还是这就是它的工作方式？

<div class="md"><p>Running into something annoying with llama-server in router mode (`--models-preset`) and I can't tell if I'm missing a flag or if this is just how it works. </p> <p>My rig is 2x 3090, 2x 4060 Ti (one's unplugged at the moment, riser got repurpose…

报道来源 [1]

llama-server 路由器：即使模型固定在某个 GPU 上，每次仍会占用所有卡的 CUDA 上下文，导致其他卡满时 OOM。我是否遗漏了某个标志，还是这就是它的工作方式？

相关实体

相关话题