PulseAugur
实时 20:38:18
English(EN) How Good is Your Wikipedia? Auditing Data Quality for Low-resource and Multilingual NLP

研究人员审计低资源NLP任务的维基百科数据质量

一项新研究审计了低资源和多语言自然语言处理(NLP)任务的维基百科数据质量。研究人员发现存在显著的质量问题,包括脚本和语言污染、机器人生成内容以及模板文章,尤其是在非英语版本中。过滤这些数据在多种场景下提高了语言模型的性能,特别是对于质量较低的语言版本,这表明在NLP数据集整理中需要有质量意识的最佳实践。 AI

影响 强调了在NLP中仔细整理数据的重要性,特别是对于低资源语言,以提高模型性能。

排序理由 学术论文,详细介绍了数据质量审计及其对NLP模型的影响。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

研究人员审计低资源NLP任务的维基百科数据质量

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Kushal Tatariya, Artur Kulmizev, Wessel Poelman, Esther Ploeger, Marcel Bollmann, Johannes Bjerva, Jiaming Luo, Heather Lent, Miryam de Lhoneux ·

    How Good is Your Wikipedia? Auditing Data Quality for Low-resource and Multilingual NLP

    arXiv:2411.05527v3 Announce Type: replace Abstract: Wikipedia's perceived high quality and broad language coverage have established it as a fundamental resource in NLP. However, in recent years, such assumptions of high quality have become the subject of scrutiny in low-resource …