实体 ggml-webgpu

ggml-webgpu

PulseAugur coverage of ggml-webgpu — every cluster mentioning ggml-webgpu across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

0

90 天内 0

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_79340 · Jun 9 · 02:41

llama.cpp PR 将 k-quant 模型速度提升高达 3.78 倍

llama.cpp 项目的一个拉取请求（pull request）为 k-quantized 模型引入了优化，显著提高了预填充速度。这些更改侧重于各种量化级别（包括 Q4、Q5 和 Q8）的矩阵乘法（matmul）操作。在 M2 Pro 芯片上的基准测试显示，某些量化的速度提升高达 3.78 倍，从而提高了本地大型语言模型的性能。