PulseAugur
实时 12:03:49
English(EN) BhashaSetu: A Data-Centric Approach to Low-Resource Machine Translation

新的马拉地语数据集BhashaSetu提高了低资源翻译质量

研究人员推出BhashaSetu,一个旨在改善马拉地语低资源机器翻译的新数据集。该数据集包含278万个句子对,涵盖多个领域,包括用于形态感知分析的词干和词形还原表示。实验表明,语料库级别的去重显著提高了翻译质量,突显了数据卫生对于形态丰富的语言的重要性。BhashaSetu数据集现已公开提供,以支持该领域的重现性研究。 AI

影响 该数据集以及关于数据卫生的发现,可以显著提高代表性不足语言的翻译质量。

排序理由 该集群描述了一篇介绍低资源机器翻译数据集和方法论的新研究论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新的马拉地语数据集BhashaSetu提高了低资源翻译质量

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Param Thakkar, Anushka Yadav, Michael Tiemann, Abhi Mehta, Akshita Bhasin, Shrinivas Khedkar ·

    BhashaSetu: A Data-Centric Approach to Low-Resource Machine Translation

    arXiv:2605.27050v1 Announce Type: new Abstract: We present BhashaSetu, a linguistically enriched English--Marathi parallel dataset addressing persistent data limitations in low-resource neural machine translation (NMT). Marathi, spoken by over 95 million people, remains underrepr…

  2. arXiv cs.CL TIER_1 English(EN) · Shrinivas Khedkar ·

    BhashaSetu: A Data-Centric Approach to Low-Resource Machine Translation

    We present BhashaSetu, a linguistically enriched English--Marathi parallel dataset addressing persistent data limitations in low-resource neural machine translation (NMT). Marathi, spoken by over 95 million people, remains underrepresented in high-quality parallel corpora across …