English(EN) llama-bench skipped FA on capable GPUs — b9437 corrects it

llama-bench 针对闪存注意力和 GPU 层数进行了默认值更正

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-18 09:36

最近为 llama-bench 工具发布的 b9437 版本更正了与闪存注意力和 GPU 层数相关的默认设置。此前，该工具即使在兼容硬件上也将闪存注意力硬编码为关闭，并为 GPU 层数使用了旧的哨兵值。此次更新现在将闪存注意力默认设置为在 सक्षम 硬件（CUDA、Metal、Vulkan）上自动激活，并将 GPU 层数设置为 -1，与其他 llama.cpp 工具（如 llama-server 和 llama-cli）保持一致。此更改确保了使用最新默认值运行的基准测试能够准确反映在支持的 GPU 上使用闪存注意力的情况。 AI

影响确保在兼容硬件上对闪存注意力的准确基准测试，提高 llama.cpp 性能指标的可靠性。

排序理由这是对特定工具默认设置的修复，而不是新的模型发布或重大的行业事件。

在 dev.to — LLM tag 阅读 →

基础设施

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

dev.to — LLM tag TIER_1 English(EN) · Creeta · 2026-06-18 09:36

llama-bench skipped FA on capable GPUs — b9437 corrects it

<h2> What flipped in b9437 </h2> <p>Build <a href="https://github.com/ggml-org/llama.cpp/releases" rel="noopener noreferrer">b9437</a>, published on May 30, 2026 at 20:56 UTC , ships two targeted default-value corrections to <code>llama-bench</code>. Flash attention (<code>-fa</c…

报道来源 [1]

llama-bench skipped FA on capable GPUs — b9437 corrects it

相关实体

相关话题