PulseAugur
实时 15:00:19
English(EN) How do you increase prompt processing speed ?

LLM用户寻求更快的提示处理速度以支持长代理运行

一位用户在 r/LocalLLaMA 子版块上寻求提高大型语言模型提示处理速度的方法,特别提到了 Qwen 模型的问题,以及随着上下文长度增加,每秒令牌数显著下降的情况。他们目前在 Linux 上使用 Vulkan,并指出 HIP 提供了速度提升,但内存使用量增加且令牌生成效果不佳。用户正在寻找在长代理运行期间保持更高处理速度的解决方案。 AI

排序理由 用户在小众子版块上提出的关于优化本地LLM性能的问题。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/soyalemujica ·

    如何提高提示处理速度?

    <!-- SC_OFF --><div class="md"><p>I am rocking Qwen like we all know, at 24GB 7900XTX 230k context, but it starts at 850t/s and then lowers to 350t/s when its at 160k context prefill speed, which is frustrating me for my long agentic runs.</p> <p>What is there to be done in order…