研究人员开发了一种新的神经机器翻译(NMT)系统的后训练方法,该方法利用了强化学习和直接偏好优化(DPO)。该框架仅需要一个通用的文本语料库和来自专家翻译者(可以是人类或AI)的反馈。在英译德翻译上的实验表明,将这种由DPO驱动的方法应用于gemma3-1b模型显著提高了其翻译质量,COMET分数从0.703提升至0.747。 AI
影响 通过基于偏好的后训练增强NMT模型,可能提高各种语言对的翻译准确性。
排序理由 这是一篇详细介绍改进NMT模型新方法的学术论文。
- arXiv
- COMET score
- Direct Preference Optimization
- English-to-German translation
- gemma3-1b
- Neural Machine Translation
- Reinforcement Learning
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →