研究人员开发了一种新颖的数据合成方法,为低资源土著语言(特别是克奇语玛雅语)创建神经机器翻译(NMT)模型。通过将词典转换为合成语料库,并在 mT5-base 模型上使用带有 LoRA 适配器的参数高效微调(PEFT),他们实现了强大的结构习得。然而,与自然语言相比,所得模型在词汇基础方面存在显著差距,这表明虽然合成数据在学习语法方面有效,但真实数据对于语义完善至关重要。 AI
影响 展示了一种为濒危语言创建翻译模型的可行方法,保护了语言数据主权。
排序理由 详细介绍低资源 NMT 新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →