English(EN) SomaliWeb v1: A Quality-Filtered Somali Web Corpus with a Matched Tokenizer and a Public Language-Identification Benchmark

发布新的索马里语语料库和研究工具

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-18 11:28

研究人员开发了SomaliWeb v1，这是一个包含约3.03亿个词元的新索马里语文本语料库。该数据集是通过一个可复现的六阶段流程创建的，从HPLT v2、CC100和索马里维基百科中过滤数据。此次发布还包括一个匹配的BPE-16K分词器以及首个索马里语语言识别公开基准，突出了现有数据集的质量问题。 AI

影响为开发索马里语的AI模型提供了基本资源，解决了低资源语言支持方面的空白。

排序理由该集群描述了一篇关于创建专用语言语料库及相关工具的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Khalid Yusuf Dahir · 2026-05-18 11:28

SomaliWeb v1：一个经过质量过滤的索马里网络语料库，附带匹配的分词器和公开的语言识别基准

Somali is a Cushitic language of the Horn of Africa with ~25 million speakers, yet no documented dedicated Somali pretraining corpus with a companion tokenizer and language-identification benchmark has been publicly released. Existing Somali text appears either inside multilingua…

报道来源 [1]

SomaliWeb v1：一个经过质量过滤的索马里网络语料库，附带匹配的分词器和公开的语言识别基准

相关实体

相关话题