一位开发者创建了 LFM2.5-8B-A1B 语言模型的原生 Rust、仅 CPU 实现。这个仍在进行中的项目已作为 cargo crate 发布,并包含工具使用回调等功能。该实现可以在 Ryzen 7950x 上提供约 37 tokens/s 的解码速度,并且可以在内存仅为 16GB 的系统上运行,内存使用量约为 7GB。 AI
影响 使得在没有专用 GPU 的消费级硬件上运行特定 LLM 成为可能。
排序理由 这是用户创建的现有模型实现,而非前沿实验室发布的模型。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →