PulseAugur
实时 05:06:36
English(EN) LFM2.5 230M running in-browser at 1,400 tok/s using custom WebGPU kernels

230M LFM2.5 模型在浏览器中以每秒 1,400 个 token 的速度运行

一个拥有 2.3 亿参数的模型 LFM2.5,现在能够在网页浏览器中以每秒 1,400 个 token 的速度运行。这一性能是通过自定义 WebGPU 内核实现的,该内核由曾与 Fable 5Opus 4.8 相关的人员开发。该模型可在 Hugging Face 上找到,并提供了一个演示空间供用户体验其浏览器内功能。 AI

影响 实现了小型语言模型在浏览器中的高效执行,可能提高可访问性并减少对服务器端处理的依赖。

排序理由 该集群描述了一个在特定平台上使用自定义内核运行的特定模型,这是一个技术实现细节,而不是新模型发布或重大的行业事件。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

230M LFM2.5 模型在浏览器中以每秒 1,400 个 token 的速度运行

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/xenovatech ·

    LFM2.5 230M 在浏览器中使用自定义 WebGPU 内核以 1,400 tok/s 运行

    <table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1ufii9b/lfm25_230m_running_inbrowser_at_1400_toks_using/"> <img alt="LFM2.5 230M running in-browser at 1,400 tok/s using custom WebGPU kernels" src="https://external-preview.redd.it/ZzBzdGIwM3R5ZzloMbNWdyfcno-…