实体
o200k_base
o200k_base
PulseAugur coverage of o200k_base — every cluster mentioning o200k_base across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
非洲语言在前沿大型语言模型中面临严重分词惩罚
一项新的研究论文揭示了前沿大型语言模型中存在显著的“非洲语言税”,其中分词器为非洲语言分配的子词数量远超英语。这导致这些语言的使用者面临更高的推理成本、增加的延迟以及缩小的有效上下文窗口。该研究衡量了这种惩罚在20种非洲语言中的表现,发现使用埃塞俄比亚文字和N'Ko文字的语言惩罚尤为严重,某些情况下的成本倍增高达8.9倍。虽然Gemma 4等较新的分词器有所改进,但并未消除这种惩罚,凸显了大型语言模型基础设施中编码的数字鸿沟。
-
新的BrahmicTokenizer-131K提高了印度语言分词效率
研究人员开发了BrahmicTokenizer-131K,这是一种旨在提高印度语言效率的新分词器,同时保持在英语和代码上的性能。与Mistral-Nemo Tekken/Sarvam-m等现有模型相比,该分词器在印度语言预训练文本上的分词数量减少了26.7%,在奥里亚语等语言上取得了显著的进步。BrahmicTokenizer-131K是OpenAI的o200k_base的即插即用替代品,在英语分词能力上具有竞争力,并在编码和数学基准…