English(EN) Data Synthesis and Parameter-Efficient Fine-Tuning for Low-Resource NMT: A Case Study on Q'eqchi' Mayan

人工智能合成数据以启动克奇语玛雅语翻译模型

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-08 17:29

研究人员开发了一种新颖的数据合成方法，为低资源土著语言（特别是克奇语玛雅语）创建神经机器翻译（NMT）模型。通过将词典转换为合成语料库，并在 mT5-base 模型上使用带有 LoRA 适配器的参数高效微调（PEFT），他们实现了强大的结构习得。然而，与自然语言相比，所得模型在词汇基础方面存在显著差距，这表明虽然合成数据在学习语法方面有效，但真实数据对于语义完善至关重要。 AI

影响展示了一种为濒危语言创建翻译模型的可行方法，保护了语言数据主权。

排序理由详细介绍低资源 NMT 新方法的学术论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Alexander Chulzhanov, Soeren Eberhardt, Arjun Mukherjee · 2026-06-09 04:00

低资源神经机器翻译的数据合成与参数高效微调：以Q'eqchi'玛雅语为例

arXiv:2606.09767v1 Announce Type: cross Abstract: Neural machine translation for digitally low-resource Indigenous languages is often hindered by extreme data scarcity, prompting reliance on extractive web-scraping. To ensure data sovereignty, this study introduces a data synthes…
arXiv cs.AI TIER_1 English(EN) · Arjun Mukherjee · 2026-06-08 17:29

低资源神经机器翻译的数据合成与参数高效微调：以 Q'eqchi' 玛雅语为例的研究

Neural machine translation for digitally low-resource Indigenous languages is often hindered by extreme data scarcity, prompting reliance on extractive web-scraping. To ensure data sovereignty, this study introduces a data synthesis methodology to bootstrap NMT models without scr…

报道来源 [2]

低资源神经机器翻译的数据合成与参数高效微调：以Q'eqchi'玛雅语为例

低资源神经机器翻译的数据合成与参数高效微调：以 Q'eqchi' 玛雅语为例的研究

相关实体

相关话题