English(EN) CHALIS: A Challenge Dataset for Language Identification in Difficult Scenarios

新数据集用近亲语言和噪声挑战语言识别系统

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-04 12:26

研究人员推出了CHALIS，一个旨在测试语言识别系统在挑战性场景下性能的新数据集。该数据集包含近亲语言的示例以及带有拼写噪声的文本，例如音译和网络俚语。评估表明，当前的语言识别系统在这些困难案例中表现不佳，尤其是在低资源语言和有噪声输入方面。 AI

影响突出了当前语言识别模型的局限性，可能推动对更鲁棒的解决方案的研究，以应对多样化的语言输入。

排序理由该集群包含一篇介绍语言识别新基准数据集的学术论文。

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Michal Tich\'y, Jind\v{r}ich Libovick\'y · 2026-06-05 04:00

CHALIS：语言识别在困难场景下的挑战数据集

arXiv:2606.06088v1 Announce Type: new Abstract: We present CHALIS (Challenging Language Identification Samples), a new benchmark dataset explicitly designed to address difficult cases in language identification: cousin languages and orthographic noise. Our dataset has two parts: …
arXiv cs.CL TIER_1 English(EN) · Jindřich Libovický · 2026-06-04 12:26

CHALIS：语言识别困难场景的挑战数据集

We present CHALIS (Challenging Language Identification Samples), a new benchmark dataset explicitly designed to address difficult cases in language identification: cousin languages and orthographic noise. Our dataset has two parts: First, we collected sentences shared across mutu…