English(EN) BhashaSetu: A Data-Centric Approach to Low-Resource Machine Translation

新的马拉地语数据集BhashaSetu提高了低资源翻译质量

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-26 14:03

研究人员推出BhashaSetu，一个旨在改善马拉地语低资源机器翻译的新数据集。该数据集包含278万个句子对，涵盖多个领域，包括用于形态感知分析的词干和词形还原表示。实验表明，语料库级别的去重显著提高了翻译质量，突显了数据卫生对于形态丰富的语言的重要性。BhashaSetu数据集现已公开提供，以支持该领域的重现性研究。 AI

影响该数据集以及关于数据卫生的发现，可以显著提高代表性不足语言的翻译质量。

排序理由该集群描述了一篇介绍低资源机器翻译数据集和方法论的新研究论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Param Thakkar, Anushka Yadav, Michael Tiemann, Abhi Mehta, Akshita Bhasin, Shrinivas Khedkar · 2026-05-27 04:00

BhashaSetu: A Data-Centric Approach to Low-Resource Machine Translation

arXiv:2605.27050v1 Announce Type: new Abstract: We present BhashaSetu, a linguistically enriched English--Marathi parallel dataset addressing persistent data limitations in low-resource neural machine translation (NMT). Marathi, spoken by over 95 million people, remains underrepr…
arXiv cs.CL TIER_1 English(EN) · Shrinivas Khedkar · 2026-05-26 14:03

BhashaSetu: A Data-Centric Approach to Low-Resource Machine Translation

We present BhashaSetu, a linguistically enriched English--Marathi parallel dataset addressing persistent data limitations in low-resource neural machine translation (NMT). Marathi, spoken by over 95 million people, remains underrepresented in high-quality parallel corpora across …

报道来源 [2]

BhashaSetu: A Data-Centric Approach to Low-Resource Machine Translation

BhashaSetu: A Data-Centric Approach to Low-Resource Machine Translation

相关实体

相关话题