PulseAugur
实时 11:35:02
English(EN) CHALIS: A Challenge Dataset for Language Identification in Difficult Scenarios

新数据集用近亲语言和噪声挑战语言识别系统

研究人员推出了CHALIS,一个旨在测试语言识别系统在挑战性场景下性能的新数据集。该数据集包含近亲语言的示例以及带有拼写噪声的文本,例如音译和网络俚语。评估表明,当前的语言识别系统在这些困难案例中表现不佳,尤其是在低资源语言和有噪声输入方面。 AI

影响 突出了当前语言识别模型的局限性,可能推动对更鲁棒的解决方案的研究,以应对多样化的语言输入。

排序理由 该集群包含一篇介绍语言识别新基准数据集的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Michal Tich\'y, Jind\v{r}ich Libovick\'y ·

    CHALIS:语言识别在困难场景下的挑战数据集

    arXiv:2606.06088v1 Announce Type: new Abstract: We present CHALIS (Challenging Language Identification Samples), a new benchmark dataset explicitly designed to address difficult cases in language identification: cousin languages and orthographic noise. Our dataset has two parts: …

  2. arXiv cs.CL TIER_1 English(EN) · Jindřich Libovický ·

    CHALIS:语言识别困难场景的挑战数据集

    We present CHALIS (Challenging Language Identification Samples), a new benchmark dataset explicitly designed to address difficult cases in language identification: cousin languages and orthographic noise. Our dataset has two parts: First, we collected sentences shared across mutu…