一位 r/LocalLLaMA 子版块的用户正在寻求关于优化 llama.cpp 框架以处理长上下文和高效 KV 缓存量化的建议。他们目前正在使用一个修改版的 llama.cpp,集成了 MTP(多线程处理)和 Q4 缓存,在较短的上下文中速度约为每秒 60 个 token,但随着上下文长度的增加,速度显著下降。用户正在寻找能够为扩展上下文窗口提供更好性能的替代方法或配置。 AI
影响 用户正在探索提高本地 LLM 推理在更长上下文方面的性能的方法。
排序理由 用户在论坛上提出的关于优化现有软件的问题,并非新发布或重大事件。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →