一位 r/LocalLLaMA 子版块的用户正在寻求关于配置 llama-swap 以处理单个模型并发请求的帮助。他们已成功设置了支持多 GPU 的 Qwen 3.6 35B A3B,并通过 llama-server 启用了并发,但 llama-swap 似乎将请求串行化处理,而不是并行处理。用户已尝试各种配置选项和问题跟踪器但未成功,他们特别希望避免运行多个 llama-cpp 实例以节省 GPU 内存。 AI
排序理由 用户生成关于特定软件配置问题的提问,而非普遍性发布或重大行业事件。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →