研究人员开发了SSR-Zero,一个新颖的用于机器翻译的强化学习框架,它消除了对外部人工标注数据或预训练奖励模型的需求。通过利用自评估奖励和Qwen-2.5-7B骨干模型,SSR-Zero在英汉翻译任务上取得了优于现有模型的性能。通过外部监督进行的进一步增强,如在SSR-X-Zero-7B中所见,已实现了最先进的性能,超越了开源和闭源的替代品。 AI
影响 引入了用于机器翻译的自奖励强化学习,可能减少对昂贵的人工监督的依赖并提高翻译质量。
排序理由 该集群描述了关于新颖机器翻译框架和数据集的新学术论文。
- COMET
- Flores200
- GemmaX-28-9B
- Qwen2.5-32B-Instruct
- Qwen-2.5-7B
- SSR-Zero
- TowerInstruct-13B
- WMT23
- WMT24
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →