English(EN) New week, new slides and small updates: Run LLMs Locally Added an example to create Mermaid diagrams in llama.cpp UI. Added QAT (Quantization-Aware Training) va

本地LLM指南更新，包含Gemma 4速度提升和图表工具

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-08 16:29

Thomas Bley 更新了他的“在本地运行LLM”演示文稿，增加了新的示例和性能改进。更新内容包括在llama.cpp UI中创建Mermaid图的演示，并为Gemma 4引入了量化感知训练（QAT）变体，据称在本地设置下可实现50%更快的token生成速度。此外，演示文稿现在还澄清了确定性结果和概率性结果的定义。 AI

影响为在本地运行LLM提供了实用的指导和性能优化，可能降低开发者的门槛。

排序理由对本地运行LLM的指南进行了更新，包括性能调整和新示例。

在 Mastodon — mastodon.social 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Mastodon — mastodon.social TIER_1 English(EN) · [email protected] · 2026-06-08 16:29

新的一周，新的幻灯片和小型更新：在 llama.cpp UI 中添加了创建 Mermaid 图的示例。添加了 QAT（量化感知训练）支持

New week, new slides and small updates: Run LLMs Locally Added an example to create Mermaid diagrams in llama.cpp UI. Added QAT (Quantization-Aware Training) variants of Gemma 4 which are 50 percent faster in token generation with my local setup. Added definitions for Determinist…

链接 codeberg.org/…/Run_LLMs_Locally_2026_Thom…

报道来源 [1]

新的一周，新的幻灯片和小型更新：在 llama.cpp UI 中添加了创建 Mermaid 图的示例。添加了 QAT（量化感知训练）支持

相关实体

相关话题