PulseAugur
实时 02:59:01
English(EN) CUDA: add fast walsh-hadamard transform by am17an · Pull Request #23615 · ggml-org/llama.cpp

llama.cpp 添加 CUDA FWHT 以加速 KV 缓存量化

llama.cpp 项目的一个拉取请求引入了快速 Walsh-Hadamard 变换 (FWHT) 的 CUDA 实现。此优化由用户 am17an 开发,旨在加快键值缓存量化时的操作速度。初步基准测试显示性能有所提升,对于 Gemma 4 26B 模型,处理能力 (pp) 提升了 1-2%,令牌生成 (tg) 增加了 7-9%。 AI

影响 通过优化 KV 缓存操作,提高了本地 LLM 部署的推理效率。

排序理由 这是开源项目中特定优化的一个拉取请求,而不是重大的模型发布或行业塑造事件。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

llama.cpp 添加 CUDA FWHT 以加速 KV 缓存量化

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/pmttyji ·

    CUDA: add fast walsh-hadamard transform by am17an · Pull Request #23615 · ggml-org/llama.cpp

    <table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1tnfqng/cuda_add_fast_walshhadamard_transform_by_am17an/"> <img alt="CUDA: add fast walsh-hadamard transform by am17an · Pull Request #23615 · ggml-org/llama.cpp" src="https://external-preview.redd.it/LjVbMyds…