English(EN) BeeLlama v0.3.1 – latest llama.cpp with extras! DFlash, MTP, q6_0 cache, TurboQuant. Single RTX 3090: Qwen 3.6 27B & Gemma 4 31B up to 177.8 tps (4.93x over baseline)

BeeLlama v0.3.1 通过 DFlash, MTP 提升本地 LLM 性能

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-04 21:25

BeeLlama v0.3.1，一个 llama.cpp 的分支版本，已发布并带来了显著的性能提升。此次更新集成了 DFlash、多线程处理 (MTP) 以及 q6_0 缓存和 TurboQuant 等新的量化选项。在单块 RTX 3090 上的基准测试显示速度大幅提升，Qwen 3.6 27B 和 Gemma 4 31B 模型达到了 177.8 tps，比基线提高了 4.93 倍。 AI

影响增强了本地 LLM 推理的速度和效率，使得在消费级硬件上运行更强大的模型成为可能。

排序理由这是一个现有项目 (llama.cpp) 的软件更新/分支版本，具有性能改进和新功能，而非新模型发布或基础研究。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

BeeLlama v0.3.1 通过 DFlash, MTP 提升本地 LLM 性能

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/Anbeeld · 2026-06-04 21:25

BeeLlama v0.3.1 – 最新 llama.cpp 增强版！DFlash, MTP, q6_0 缓存, TurboQuant。单张 RTX 3090：Qwen 3.6 27B & Gemma 4 31B 可达 177.8 tps (比基线快 4.93 倍)

<div class="md"><p><strong>BeeLlama v0.3.0 and v0.3.1 are here!</strong> Big architectural update to align the fork with upstream llama.cpp and integrate all its additions like MTP and Gemma 4 12B support, while also updating DFlash to handle complex configurations…

报道来源 [1]

BeeLlama v0.3.1 – 最新 llama.cpp 增强版！DFlash, MTP, q6_0 缓存, TurboQuant。单张 RTX 3090：Qwen 3.6 27B & Gemma 4 31B 可达 177.8 tps (比基线快 4.93 倍)

相关实体

相关话题