English(EN) Open but Incompatible: A License Compatibility Analysis of Corpora for Low-Resource African Languages

知识共享许可协议给非洲自然语言处理语料库带来兼容性问题

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

一篇新论文强调了非洲自然语言处理（NLP）语料库中使用的知识共享（Creative Commons）许可协议存在严重的兼容性问题。研究发现，像CC-BY-SA和CC-BY-NC这样的常见许可协议在组合使用时常常不兼容，而“禁止演绎”（NoDerivs）等条款会禁止分词和标注等必要的数据处理步骤。研究详细介绍了四种失败模式，包括直接禁止、复合许可的错误表示、隐藏的“禁止演绎”条款以及数据持久性失败，这些都影响了JW300、WAXAL、Tanzil和刚果广播语料库等语料库。 AI

影响凸显了可能阻碍低资源非洲语言NLP模型发展的关键数据许可挑战。

排序理由分析数据许可问题的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Ernst van Gassen · 2026-06-30 04:00

Open but Incompatible: A License Compatibility Analysis of Corpora for Low-Resource African Languages

arXiv:2606.28867v1 Announce Type: new Abstract: Creative Commons licenses dominate African NLP corpus releases, but their compatibility rules are rarely applied. CC-BY-SA and CC-BY-NC cannot be combined in a single published dataset; a NoDerivs clause silently prohibits tokenisat…

报道来源 [1]

Open but Incompatible: A License Compatibility Analysis of Corpora for Low-Resource African Languages

相关实体

相关话题