一项新的研究论文揭示了前沿大型语言模型中存在显著的“非洲语言税”,其中分词器为非洲语言分配的子词数量远超英语。这导致这些语言的使用者面临更高的推理成本、增加的延迟以及缩小的有效上下文窗口。该研究衡量了这种惩罚在20种非洲语言中的表现,发现使用埃塞俄比亚文字和N'Ko文字的语言惩罚尤为严重,某些情况下的成本倍增高达8.9倍。虽然Gemma 4等较新的分词器有所改进,但并未消除这种惩罚,凸显了大型语言模型基础设施中编码的数字鸿沟。 AI
影响 凸显了关键的数字鸿沟,可能阻碍非洲语言使用者公平地获取和开发人工智能技术。
排序理由 一篇发布在arXiv上的研究论文,详细系统地测量了大型语言模型中非洲语言的分词成本。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →