研究人员推出BhashaSetu,一个旨在改善马拉地语低资源机器翻译的新数据集。该数据集包含278万个句子对,涵盖多个领域,包括用于形态感知分析的词干和词形还原表示。实验表明,语料库级别的去重显著提高了翻译质量,突显了数据卫生对于形态丰富的语言的重要性。BhashaSetu数据集现已公开提供,以支持该领域的重现性研究。 AI
影响 该数据集以及关于数据卫生的发现,可以显著提高代表性不足语言的翻译质量。
排序理由 该集群描述了一篇介绍低资源机器翻译数据集和方法论的新研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →