PulseAugur
实时 05:54:56

新的BrahmicTokenizer-131K提高了印度语言分词效率

研究人员开发了BrahmicTokenizer-131K,这是一种旨在提高印度语言效率的新分词器,同时保持在英语和代码上的性能。与Mistral-Nemo Tekken/Sarvam-m等现有模型相比,该分词器在印度语言预训练文本上的分词数量减少了26.7%,在奥里亚语等语言上取得了显著的进步。BrahmicTokenizer-131K是OpenAI的o200k_base的即插即用替代品,在英语分词能力上具有竞争力,并在编码和数学基准测试中优于其他分词器。 AI

影响 提高了大型语言模型中印度语言的效率,可能提高多语言人工智能应用的性能并降低成本。

排序理由 详细介绍新分词器及其基准测试结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的BrahmicTokenizer-131K提高了印度语言分词效率

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Rohan Shravan ·

    BrahmicTokenizer-131K:o200k_base 的一种支持印度语言的即插即用替代品

    arXiv:2605.29379v1 Announce Type: new Abstract: We present BrahmicTokenizer-131K, a 131,072-vocabulary byte-level BPE tokenizer that closes the Brahmic compression gap at the 131K-vocabulary class while preserving the English, EU-language, and code compression of OpenAI's o200k_b…