PulseAugur
实时 08:15:41
English(EN) Data Synthesis and Parameter-Efficient Fine-Tuning for Low-Resource NMT: A Case Study on Q'eqchi' Mayan

人工智能合成数据以启动克奇语玛雅语翻译模型

研究人员开发了一种新颖的数据合成方法,为低资源土著语言(特别是克奇语玛雅语)创建神经机器翻译(NMT)模型。通过将词典转换为合成语料库,并在 mT5-base 模型上使用带有 LoRA 适配器的参数高效微调(PEFT),他们实现了强大的结构习得。然而,与自然语言相比,所得模型在词汇基础方面存在显著差距,这表明虽然合成数据在学习语法方面有效,但真实数据对于语义完善至关重要。 AI

影响 展示了一种为濒危语言创建翻译模型的可行方法,保护了语言数据主权。

排序理由 详细介绍低资源 NMT 新方法的学术论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Alexander Chulzhanov, Soeren Eberhardt, Arjun Mukherjee ·

    低资源神经机器翻译的数据合成与参数高效微调:以Q'eqchi'玛雅语为例

    arXiv:2606.09767v1 Announce Type: cross Abstract: Neural machine translation for digitally low-resource Indigenous languages is often hindered by extreme data scarcity, prompting reliance on extractive web-scraping. To ensure data sovereignty, this study introduces a data synthes…

  2. arXiv cs.AI TIER_1 English(EN) · Arjun Mukherjee ·

    低资源神经机器翻译的数据合成与参数高效微调:以 Q'eqchi' 玛雅语为例的研究

    Neural machine translation for digitally low-resource Indigenous languages is often hindered by extreme data scarcity, prompting reliance on extractive web-scraping. To ensure data sovereignty, this study introduces a data synthesis methodology to bootstrap NMT models without scr…