llama.cpp 项目已合并一项重要的修复(b9455),该修复解决了在使用多 GPU 设置上的 --sm tensor 标志时,KV 缓存出现的问题。此更新由 Johannes Gaessler 开发,确保在张量展平时保留形状信息,从而使 meta 后端能够正确处理 KV 缓存旋转。该修复通过扩展 meta 后端的功能而不是修改计算图来避免不希望出现的变通方法。 AI
影响 提高了在多 GPU 配置上本地运行 LLM 的用户的性能和稳定性。
排序理由 这是与 LLM 推理相关的开源项目的软件更新/修复,而不是新的模型发布或重大行业事件。[lever_c_demoted from research: ic=1 ai=0.7]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →