English(EN) Maybe dumb question, but how do you serve multiple users with the full context length?

LLaMA.cpp 用户对多用户全上下文窗口分配提出疑问

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-15 19:59

在 r/LocalLLaMA 子版块上，一位用户正在询问在语言模型中同时为多个用户提供大上下文窗口的技术挑战。具体来说，他们想知道像 llama.cpp 这样的工具在多个用户并行访问模型时，如何为每个用户提供完整的上下文长度（例如 128k 令牌）。用户怀疑当前的实现可能是用户共享上下文窗口，而不是为每个用户单独分配。 AI

排序理由这是关于技术实现细节的子版块用户提问，并非新闻事件。

在 r/LocalLLaMA 阅读 →

基础设施

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/TrainingTwo1118 · 2026-06-15 19:59

可能有点蠢的问题，但如何用完整的上下文长度服务多个用户？

<div class="md">After experimenting with llama.cpp, I'm wondering a thing. Let's say we have an LLM with a context size of 128k. Now let's say we want have up to 8 parallel users, and we want to provide each client with the full context c…

报道来源 [1]

可能有点蠢的问题，但如何用完整的上下文长度服务多个用户？

相关实体

相关话题