PulseAugur
实时 03:34:31
English(EN) Another big tensor fix b9820

llama.cpp 更新通过减少同步来优化张量操作

llama.cpp 项目的最新更新,特别是拉取请求 #20793,为张量操作引入了显著的优化。这些更改旨在减少拆分计算期间的同步开销,特别是通过用异步副本替换同步副本来使 CUDA 后端受益。这些修改还增强了后端检测,以防止链接冲突,并允许更普遍地选择性地放宽显式同步要求,这可能使 Vulkan 等其他后端受益。 AI

影响 通过减少张量操作中的同步开销来优化本地 LLM 推理的性能。

排序理由 这是开源项目的代码更新/修复,而不是新模型发布或重要研究。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

llama.cpp 更新通过减少同步来优化张量操作

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/Bulky-Priority6824 ·

    又一个大型张量修复 b9820

    <!-- SC_OFF --><div class="md"><p>sched : reintroduce less synchronizations during split compute (<a href="https://github.com/ggml-org/llama.cpp/pull/20793">#20793</a>)</p> <ul> <li>CUDA: Improve performance via less synchronizations between token (<a href="https://github.com/ggm…