English(EN) Gemma 4 E2B running in-browser at 255 tok/s using WebGPU kernels written by Fable 5

Gemma 4-E2B 使用 WebGPU 内核在浏览器中以 255 tok/s 的速度运行

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-17 17:06

Gemma 4-E2B 的演示和 WebGPU 内核已发布，可在浏览器中以大约每秒 255 个 token 的速度运行。据报道，在 Fable 5 关闭之前，Fable 5 协助完成了优化。此次发布包括在 Hugging Face 上提供的演示和内核，模型本身也已链接。 AI

影响实现了 Gemma 4-E2B 更快、更便捷的浏览器内运行，可能提高了本地 LLM 用户的使用便利性。

排序理由发布了现有模型的优化内核和演示，而非新模型发布。

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/xenovatech · 2026-06-17 17:06

Gemma 4 E2B 使用 Fable 5 编写的 WebGPU 内核在浏览器中运行，速度达 255 token/秒

<table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1u8g3d0/gemma_4_e2b_running_inbrowser_at_255_toks_using/"> <img alt="Gemma 4 E2B running in-browser at 255 tok/s using WebGPU kernels written by Fable 5" src="https://external-preview.redd.it/b3E2bGx0cXJpdjdoM…