一个拥有 2.3 亿参数的模型 LFM2.5,现在能够在网页浏览器中以每秒 1,400 个 token 的速度运行。这一性能是通过自定义 WebGPU 内核实现的,该内核由曾与 Fable 5 和 Opus 4.8 相关的人员开发。该模型可在 Hugging Face 上找到,并提供了一个演示空间供用户体验其浏览器内功能。 AI
影响 实现了小型语言模型在浏览器中的高效执行,可能提高可访问性并减少对服务器端处理的依赖。
排序理由 该集群描述了一个在特定平台上使用自定义内核运行的特定模型,这是一个技术实现细节,而不是新模型发布或重大的行业事件。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →