PulseAugur
实时 17:20:49
English(EN) Perplexity AI Open-Sources Unigram Tokenizer That Achieves 5x Lower p50 Latency Than Hugging Face tokenizers Crate

Perplexity AI 开源 Rust 分词器,大幅降低 LLM 推理延迟

Perplexity AI 已开源一个用 Rust 实现的新 Unigram 分词器,该分词器显著降低了 LLM 推理的延迟和 CPU 利用率。与 Hugging Face 的 tokenizers Crate 相比,这个新分词器实现了高达 5 倍的 p50 延迟降低,并在生产环境中将 CPU 使用量减少了 5-6 倍。该优化针对 XLM-RoBERTa 等常用于排名和检索任务的模型,通过解决影响小型模型和重排器延迟的分词瓶颈。 AI

影响 通过减少 CPU 瓶颈和延迟,特别是在小型模型方面,加速了用于排名和检索任务的 LLM 推理。

排序理由 发布了一个核心 AI 基础设施组件(分词器)的新颖实现的开源版本,并附带性能基准测试。

在 MarkTechPost 阅读 →

AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →

Perplexity AI 开源 Rust 分词器,大幅降低 LLM 推理延迟

报道来源 [3]

  1. MarkTechPost TIER_1 English(EN) · Asif Razzaq ·

    Perplexity AI 开源 Unigram Tokenizer,其 p50 延迟比 Hugging Face tokenizers Crate 低 5 倍

    <p>Perplexity AI open-sources a rewritten Unigram tokenizer that reduces reranker latency and cuts production CPU utilization by 5-6x.</p> <p>The post <a href="https://www.marktechpost.com/2026/05/28/perplexity-ai-open-sources-unigram-tokenizer-that-achieves-5x-lower-p50-latency-…

  2. dev.to — LLM tag TIER_1 English(EN) · nanasi ·

    用纯 Rust 🦀 构建比 SentencePiece Unigram 快 9.5 倍的分词器

    <p>Tokenization is one of those silent bottlenecks in the Large Language Model (LLM) world. While GPUs do the heavy lifting of running the model, the CPU is responsible for splitting raw text into token IDs. </p> <p>In particular, the <strong>Unigram tokenization algorithm</stron…

  3. Mastodon — fosstodon.org TIER_1 English(EN) · [email protected] ·

    Perplexity AI 已开源用 Rust 重写的 Unigram 分词器,p50 延迟比 Hugging Face tokenizers crate 低 5 倍,并削减了

    Perplexity AI has open-sourced a reimplemented Unigram tokenizer written in Rust, achieving 5x lower p50 latency than the Hugging Face tokenizers crate and cutting production CPU utilisation by 5-6x. The work targets XLM-RoBERTa models commonly used for ranking and retrieval task…