English(EN) How Good is Your Wikipedia? Auditing Data Quality for Low-resource and Multilingual NLP

研究人员审计低资源NLP任务的维基百科数据质量

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-05 04:00

一项新研究审计了低资源和多语言自然语言处理（NLP）任务的维基百科数据质量。研究人员发现存在显著的质量问题，包括脚本和语言污染、机器人生成内容以及模板文章，尤其是在非英语版本中。过滤这些数据在多种场景下提高了语言模型的性能，特别是对于质量较低的语言版本，这表明在NLP数据集整理中需要有质量意识的最佳实践。 AI

影响强调了在NLP中仔细整理数据的重要性，特别是对于低资源语言，以提高模型性能。

排序理由学术论文，详细介绍了数据质量审计及其对NLP模型的影响。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Kushal Tatariya, Artur Kulmizev, Wessel Poelman, Esther Ploeger, Marcel Bollmann, Johannes Bjerva, Jiaming Luo, Heather Lent, Miryam de Lhoneux · 2026-05-05 04:00

How Good is Your Wikipedia? Auditing Data Quality for Low-resource and Multilingual NLP

arXiv:2411.05527v3 Announce Type: replace Abstract: Wikipedia's perceived high quality and broad language coverage have established it as a fundamental resource in NLP. However, in recent years, such assumptions of high quality have become the subject of scrutiny in low-resource …

报道来源 [1]

How Good is Your Wikipedia? Auditing Data Quality for Low-resource and Multilingual NLP

相关实体

相关话题