最近为 llama-bench 工具发布的 b9437 版本更正了与闪存注意力和 GPU 层数相关的默认设置。此前,该工具即使在兼容硬件上也将闪存注意力硬编码为关闭,并为 GPU 层数使用了旧的哨兵值。此次更新现在将闪存注意力默认设置为在 सक्षम 硬件(CUDA、Metal、Vulkan)上自动激活,并将 GPU 层数设置为 -1,与其他 llama.cpp 工具(如 llama-server 和 llama-cli)保持一致。此更改确保了使用最新默认值运行的基准测试能够准确反映在支持的 GPU 上使用闪存注意力的情况。 AI
影响 确保在兼容硬件上对闪存注意力的准确基准测试,提高 llama.cpp 性能指标的可靠性。
排序理由 这是对特定工具默认设置的修复,而不是新的模型发布或重大的行业事件。
- b9437
- CUDA
- flash attention
- GPU
- JohannesGaessler
- llama-bench
- llama-cli
- llama-server
- Metal
- pwilkin
- qwen3-8b-q4_k_m.gguf
- Vulkan
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →