PulseAugur
实时 18:59:40
English(EN) Backtranslation Augmented Direct Preference Optimization for Neural Machine Translation

新的DPO方法通过基于偏好的后训练提升NMT模型性能

研究人员开发了一种新的神经机器翻译(NMT)系统的后训练方法,该方法利用了强化学习和直接偏好优化(DPO)。该框架仅需要一个通用的文本语料库和来自专家翻译者(可以是人类或AI)的反馈。在英译德翻译上的实验表明,将这种由DPO驱动的方法应用于gemma3-1b模型显著提高了其翻译质量,COMET分数从0.703提升至0.747。 AI

影响 通过基于偏好的后训练增强NMT模型,可能提高各种语言对的翻译准确性。

排序理由 这是一篇详细介绍改进NMT模型新方法的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新的DPO方法通过基于偏好的后训练提升NMT模型性能

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Mehrdad Ghassabi, Spehr Rajabi, Hamidreza Baradaran Kashani, Sadra Hakim, Mahshid Keivandarian ·

    Backtranslation Augmented Direct Preference Optimization for Neural Machine Translation

    arXiv:2604.25702v1 Announce Type: new Abstract: Contemporary neural machine translation (NMT) systems are almost exclusively built by training on supervised parallel data. Despite the tremendous progress achieved, these systems still exhibit persistent translation errors. This pa…

  2. arXiv cs.CL TIER_1 English(EN) · Mahshid Keivandarian ·

    Backtranslation Augmented Direct Preference Optimization for Neural Machine Translation

    Contemporary neural machine translation (NMT) systems are almost exclusively built by training on supervised parallel data. Despite the tremendous progress achieved, these systems still exhibit persistent translation errors. This paper proposes that a post-training paradigm based…