English(EN) CommonLID: Re-evaluating State-of-the-Art Language Identification Performance on Web Data

新的CommonLID基准揭示语言识别模型存在高估问题

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-10 04:00

研究人员推出了CommonLID，一个专门为网络数据设计的新的语言识别基准。该基准包含109种语言的人工标注，旨在解决现有模型在处理嘈杂的网络文本，特别是服务不足的语言时表现不佳的问题。使用CommonLID进行的评估显示，当前的语言识别模型在网络数据上的准确率常常被高估，这凸显了对更鲁棒的评估方法和数据集的需求。 AI

影响凸显了当前语言识别模型的局限性，这对于多语言AI开发和数据整理至关重要。

排序理由该集群包含一篇介绍新基准数据集的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Pedro Ortiz Suarez, Laurie Burchell, Catherine Arnett, Rafael Mosquera-G\'omez, Sara Hincapie-Monsalve, Thom Vaughan, Damian Stewart, Malte Ostendorff, Idris Abdulmumin, Vukosi Marivate, Shamsuddeen Hassan Muhammad, Atnafu Lambebo Tonja, Hend Al-Khalifa,… · 2026-06-10 04:00

CommonLID: Re-evaluating State-of-the-Art Language Identification Performance on Web Data

arXiv:2601.18026v2 Announce Type: replace Abstract: Language identification (LID) is a fundamental step in curating multilingual corpora. However, LID models still perform poorly for many languages, especially on the noisy and heterogeneous web data often used to train multilingu…

报道来源 [1]

CommonLID: Re-evaluating State-of-the-Art Language Identification Performance on Web Data

相关话题