研究人员开发了D2P-MMT,一个新颖的基于扩散的框架,旨在通过提高对不相关视觉信息的鲁棒性来改进多模态机器翻译(MMT)。该方法在训练过程中利用双分支提示策略,结合真实图像和重建图像以促进跨模态交互。一项关键创新是分布对齐损失,它确保了两个分支之间的一致性,弥合了训练和推理之间的差距。在Multi30K数据集上的实验表明,D2P-MMT的性能优于现有的最先进方法。 AI
影响 这项研究可能带来更可靠的机器翻译系统,更好地利用视觉上下文,从而提高实际应用的准确性。
排序理由 该集群描述了一篇新发表在arXiv上的研究论文,详细介绍了一种新颖的多模态机器翻译框架。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →