English(EN) Dual-branch Prompting for Multimodal Machine Translation

新的扩散框架增强了多模态机器翻译的鲁棒性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

研究人员开发了D2P-MMT，一个新颖的基于扩散的框架，旨在通过提高对不相关视觉信息的鲁棒性来改进多模态机器翻译（MMT）。该方法在训练过程中利用双分支提示策略，结合真实图像和重建图像以促进跨模态交互。一项关键创新是分布对齐损失，它确保了两个分支之间的一致性，弥合了训练和推理之间的差距。在Multi30K数据集上的实验表明，D2P-MMT的性能优于现有的最先进方法。 AI

影响这项研究可能带来更可靠的机器翻译系统，更好地利用视觉上下文，从而提高实际应用的准确性。

排序理由该集群描述了一篇新发表在arXiv上的研究论文，详细介绍了一种新颖的多模态机器翻译框架。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Jie Wang, Zhendong Yang, Liansong Zong, Xiaobo Zhang, Dexian Wang, Ji Zhang · 2026-06-16 04:00

Dual-branch Prompting for Multimodal Machine Translation

arXiv:2507.17588v3 Announce Type: replace-cross Abstract: Multimodal Machine Translation (MMT) typically enhances text-only translation by incorporating aligned visual features. Despite the remarkable progress, state-of-the-art MMT approaches often rely on paired image-text input…

报道来源 [1]

Dual-branch Prompting for Multimodal Machine Translation

相关实体

相关话题