实体 o200k_base

o200k_base

PulseAugur coverage of o200k_base — every cluster mentioning o200k_base across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 2

发布 · 30天

0

90 天内 0

论文 · 30天

2

90 天内 2

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 2 条

RESEARCH · CL_107768 · Jun 23 · 11:47

非洲语言在前沿大型语言模型中面临严重分词惩罚

一项新的研究论文揭示了前沿大型语言模型中存在显著的“非洲语言税”，其中分词器为非洲语言分配的子词数量远超英语。这导致这些语言的使用者面临更高的推理成本、增加的延迟以及缩小的有效上下文窗口。该研究衡量了这种惩罚在20种非洲语言中的表现，发现使用埃塞俄比亚文字和N'Ko文字的语言惩罚尤为严重，某些情况下的成本倍增高达8.9倍。虽然Gemma 4等较新的分词器有所改进，但并未消除这种惩罚，凸显了大型语言模型基础设施中编码的数字鸿沟。
TOOL · CL_58838 · May 29 · 04:00

新的BrahmicTokenizer-131K提高了印度语言分词效率

研究人员开发了BrahmicTokenizer-131K，这是一种旨在提高印度语言效率的新分词器，同时保持在英语和代码上的性能。与Mistral-Nemo Tekken/Sarvam-m等现有模型相比，该分词器在印度语言预训练文本上的分词数量减少了26.7%，在奥里亚语等语言上取得了显著的进步。BrahmicTokenizer-131K是OpenAI的o200k_base的即插即用替代品，在英语分词能力上具有竞争力，并在编码和数学基准…