PulseAugur
实时 02:39:06
English(EN) BeeLlama v0.3.1 – latest llama.cpp with extras! DFlash, MTP, q6_0 cache, TurboQuant. Single RTX 3090: Qwen 3.6 27B & Gemma 4 31B up to 177.8 tps (4.93x over baseline)

BeeLlama v0.3.1 通过 DFlash, MTP 提升本地 LLM 性能

BeeLlama v0.3.1,一个 llama.cpp 的分支版本,已发布并带来了显著的性能提升。此次更新集成了 DFlash、多线程处理 (MTP) 以及 q6_0 缓存和 TurboQuant 等新的量化选项。在单块 RTX 3090 上的基准测试显示速度大幅提升,Qwen 3.6 27BGemma 4 31B 模型达到了 177.8 tps,比基线提高了 4.93 倍。 AI

影响 增强了本地 LLM 推理的速度和效率,使得在消费级硬件上运行更强大的模型成为可能。

排序理由 这是一个现有项目 (llama.cpp) 的软件更新/分支版本,具有性能改进和新功能,而非新模型发布或基础研究。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/Anbeeld ·

    BeeLlama v0.3.1 – 最新 llama.cpp 增强版!DFlash, MTP, q6_0 缓存, TurboQuant。单张 RTX 3090:Qwen 3.6 27B & Gemma 4 31B 可达 177.8 tps (比基线快 4.93 倍)

    <!-- SC_OFF --><div class="md"><p><strong>BeeLlama v0.3.0 and v0.3.1 are here!</strong> Big architectural update to align the fork with upstream llama.cpp and integrate all its additions like MTP and Gemma 4 12B support, while also updating DFlash to handle complex configurations…