English(EN) LFM2.5 230M running in-browser at 1,400 tok/s using custom WebGPU kernels

230M LFM2.5 模型在浏览器中以每秒 1,400 个 token 的速度运行

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-25 18:35

一个拥有 2.3 亿参数的模型 LFM2.5，现在能够在网页浏览器中以每秒 1,400 个 token 的速度运行。这一性能是通过自定义 WebGPU 内核实现的，该内核由曾与 Fable 5 和 Opus 4.8 相关的人员开发。该模型可在 Hugging Face 上找到，并提供了一个演示空间供用户体验其浏览器内功能。 AI

影响实现了小型语言模型在浏览器中的高效执行，可能提高可访问性并减少对服务器端处理的依赖。

排序理由该集群描述了一个在特定平台上使用自定义内核运行的特定模型，这是一个技术实现细节，而不是新模型发布或重大的行业事件。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

230M LFM2.5 模型在浏览器中以每秒 1,400 个 token 的速度运行

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/xenovatech · 2026-06-25 18:35

LFM2.5 230M 在浏览器中使用自定义 WebGPU 内核以 1,400 tok/s 运行

<table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1ufii9b/lfm25_230m_running_inbrowser_at_1400_toks_using/"> <img alt="LFM2.5 230M running in-browser at 1,400 tok/s using custom WebGPU kernels" src="https://external-preview.redd.it/ZzBzdGIwM3R5ZzloMbNWdyfcno-…

报道来源 [1]

LFM2.5 230M 在浏览器中使用自定义 WebGPU 内核以 1,400 tok/s 运行

相关实体

相关话题