English(EN) anybody got llama-swap working answering concurrent requests for a single model?

LocalLLaMA 用户寻求 llama-swap 并发请求修复方案

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-30 13:36

一位 r/LocalLLaMA 子版块的用户正在寻求关于配置 llama-swap 以处理单个模型并发请求的帮助。他们已成功设置了支持多 GPU 的 Qwen 3.6 35B A3B，并通过 llama-server 启用了并发，但 llama-swap 似乎将请求串行化处理，而不是并行处理。用户已尝试各种配置选项和问题跟踪器但未成功，他们特别希望避免运行多个 llama-cpp 实例以节省 GPU 内存。 AI

排序理由用户生成关于特定软件配置问题的提问，而非普遍性发布或重大行业事件。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/sickmartian · 2026-05-30 13:36

有人成功让 llama-swap 处理单个模型的并发请求了吗？

<div class="md"><p>been trying this out for a bit, I have qwen 3.6 35b a3b running via this config:</p> <pre><code>qwen-36-35b-a3b: aliases: - qwen-a3b cmd: | env __GLX_VENDOR_LIBRARY_NAME=nvidia __NV_PRIME_RENDER_OFFLOAD=1 DRI_PRIME=1 \ llama-server \ -m "${b…

报道来源 [1]

有人成功让 llama-swap 处理单个模型的并发请求了吗？

相关实体

相关话题