新的BrahmicTokenizer-131K提高了印度语言分词效率

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-29 04:00

研究人员开发了BrahmicTokenizer-131K，这是一种旨在提高印度语言效率的新分词器，同时保持在英语和代码上的性能。与Mistral-Nemo Tekken/Sarvam-m等现有模型相比，该分词器在印度语言预训练文本上的分词数量减少了26.7%，在奥里亚语等语言上取得了显著的进步。BrahmicTokenizer-131K是OpenAI的o200k_base的即插即用替代品，在英语分词能力上具有竞争力，并在编码和数学基准测试中优于其他分词器。 AI

影响提高了大型语言模型中印度语言的效率，可能提高多语言人工智能应用的性能并降低成本。

排序理由详细介绍新分词器及其基准测试结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Rohan Shravan · 2026-05-29 04:00

BrahmicTokenizer-131K：o200k_base 的一种支持印度语言的即插即用替代品

arXiv:2605.29379v1 Announce Type: new Abstract: We present BrahmicTokenizer-131K, a 131,072-vocabulary byte-level BPE tokenizer that closes the Brahmic compression gap at the 131K-vocabulary class while preserving the English, EU-language, and code compression of OpenAI's o200k_b…

报道来源 [1]

BrahmicTokenizer-131K：o200k_base 的一种支持印度语言的即插即用替代品

相关实体

相关话题