一篇新论文强调了非洲自然语言处理(NLP)语料库中使用的知识共享(Creative Commons)许可协议存在严重的兼容性问题。研究发现,像CC-BY-SA和CC-BY-NC这样的常见许可协议在组合使用时常常不兼容,而“禁止演绎”(NoDerivs)等条款会禁止分词和标注等必要的数据处理步骤。研究详细介绍了四种失败模式,包括直接禁止、复合许可的错误表示、隐藏的“禁止演绎”条款以及数据持久性失败,这些都影响了JW300、WAXAL、Tanzil和刚果广播语料库等语料库。 AI
影响 凸显了可能阻碍低资源非洲语言NLP模型发展的关键数据许可挑战。
排序理由 分析数据许可问题的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Congolese Radio Corpus
- Creative Commons
- Creative Commons Attribution-NonCommercial
- Creative Commons Attribution-ShareAlike
- Ernst van Gassen
- Hugging Face
- Kituba
- Opus
- WAXAL
- Zarma
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →