Perplexity AI 已开源一个用 Rust 实现的新 Unigram 分词器,该分词器显著降低了 LLM 推理的延迟和 CPU 利用率。与 Hugging Face 的 tokenizers Crate 相比,这个新分词器实现了高达 5 倍的 p50 延迟降低,并在生产环境中将 CPU 使用量减少了 5-6 倍。该优化针对 XLM-RoBERTa 等常用于排名和检索任务的模型,通过解决影响小型模型和重排器延迟的分词瓶颈。 AI
影响 通过减少 CPU 瓶颈和延迟,特别是在小型模型方面,加速了用于排名和检索任务的 LLM 推理。
排序理由 发布了一个核心 AI 基础设施组件(分词器)的新颖实现的开源版本,并附带性能基准测试。
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →