研究人员开发了BrahmicTokenizer-131K,这是一种旨在提高印度语言效率的新分词器,同时保持在英语和代码上的性能。与Mistral-Nemo Tekken/Sarvam-m等现有模型相比,该分词器在印度语言预训练文本上的分词数量减少了26.7%,在奥里亚语等语言上取得了显著的进步。BrahmicTokenizer-131K是OpenAI的o200k_base的即插即用替代品,在英语分词能力上具有竞争力,并在编码和数学基准测试中优于其他分词器。 AI
影响 提高了大型语言模型中印度语言的效率,可能提高多语言人工智能应用的性能并降低成本。
排序理由 详细介绍新分词器及其基准测试结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- BrahmicTokenizer-131K
- GSM8K
- HumanEval
- MBPP
- Mistral-Nemo Tekken / Sarvam-m
- MUTANT-Indic
- o200k_base
- OpenAI
- Sarvam-1
- Sarvam-30B
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →