研究人员开发了SomaliWeb v1,这是一个包含约3.03亿个词元的新索马里语文本语料库。该数据集是通过一个可复现的六阶段流程创建的,从HPLT v2、CC100和索马里维基百科中过滤数据。此次发布还包括一个匹配的BPE-16K分词器以及首个索马里语语言识别公开基准,突出了现有数据集的质量问题。 AI
影响 为开发索马里语的AI模型提供了基本资源,解决了低资源语言支持方面的空白。
排序理由 该集群描述了一篇关于创建专用语言语料库及相关工具的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →