PulseAugur
实时 07:54:51
English(EN) anybody got llama-swap working answering concurrent requests for a single model?

LocalLLaMA 用户寻求 llama-swap 并发请求修复方案

一位 r/LocalLLaMA 子版块的用户正在寻求关于配置 llama-swap 以处理单个模型并发请求的帮助。他们已成功设置了支持多 GPU 的 Qwen 3.6 35B A3B,并通过 llama-server 启用了并发,但 llama-swap 似乎将请求串行化处理,而不是并行处理。用户已尝试各种配置选项和问题跟踪器但未成功,他们特别希望避免运行多个 llama-cpp 实例以节省 GPU 内存。 AI

排序理由 用户生成关于特定软件配置问题的提问,而非普遍性发布或重大行业事件。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/sickmartian ·

    anybody got llama-swap working answering concurrent requests for a single model?

    <!-- SC_OFF --><div class="md"><p>been trying this out for a bit, I have qwen 3.6 35b a3b running via this config:</p> <pre><code>qwen-36-35b-a3b: aliases: - qwen-a3b cmd: | env __GLX_VENDOR_LIBRARY_NAME=nvidia __NV_PRIME_RENDER_OFFLOAD=1 DRI_PRIME=1 \ llama-server \ -m &quot;${b…