PulseAugur
实时 13:42:23
English(EN) CommonLID: Re-evaluating State-of-the-Art Language Identification Performance on Web Data

新的CommonLID基准揭示语言识别模型存在高估问题

研究人员推出了CommonLID,一个专门为网络数据设计的新的语言识别基准。该基准包含109种语言的人工标注,旨在解决现有模型在处理嘈杂的网络文本,特别是服务不足的语言时表现不佳的问题。使用CommonLID进行的评估显示,当前的语言识别模型在网络数据上的准确率常常被高估,这凸显了对更鲁棒的评估方法和数据集的需求。 AI

影响 凸显了当前语言识别模型的局限性,这对于多语言AI开发和数据整理至关重要。

排序理由 该集群包含一篇介绍新基准数据集的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Pedro Ortiz Suarez, Laurie Burchell, Catherine Arnett, Rafael Mosquera-G\'omez, Sara Hincapie-Monsalve, Thom Vaughan, Damian Stewart, Malte Ostendorff, Idris Abdulmumin, Vukosi Marivate, Shamsuddeen Hassan Muhammad, Atnafu Lambebo Tonja, Hend Al-Khalifa,… ·

    CommonLID: Re-evaluating State-of-the-Art Language Identification Performance on Web Data

    arXiv:2601.18026v2 Announce Type: replace Abstract: Language identification (LID) is a fundamental step in curating multilingual corpora. However, LID models still perform poorly for many languages, especially on the noisy and heterogeneous web data often used to train multilingu…