English(EN) A Multimodal Dataset for Visually Grounded Ambiguity in Machine Translation

新的VIDA数据集解决了多模态机器翻译中的歧义问题

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-03 19:55

研究人员推出了VIDA，一个旨在解决多模态机器翻译中歧义问题的新数据集。该数据集包含2,500个实例，其中视觉上下文对于解决歧义性表达至关重要。使用最先进的大型视觉语言模型进行的实验表明，思维链监督微调方法提高了消歧准确性，尤其是在分布外示例上。 AI

影响引入了一个新的数据集和指标，以提高多模态模型解决歧义的能力，从而可能在视觉丰富的环境中提高翻译准确性。

排序理由该集群描述了一篇介绍多模态机器翻译数据集和评估指标的新学术论文。

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Jingheng Pan, Xintong Wang, Longyue Wang, Liang Ding, Weihua Luo, Chris Biemann · 2026-05-05 04:00

A Multimodal Dataset for Visually Grounded Ambiguity in Machine Translation

arXiv:2605.02035v1 Announce Type: new Abstract: Ambiguity resolution is a key challenge in multimodal machine translation (MMT), where models must genuinely leverage visual input to map an ambiguous expression to its intended meaning. Although prior work has proposed disambiguati…
arXiv cs.CL TIER_1 English(EN) · Chris Biemann · 2026-05-03 19:55

A Multimodal Dataset for Visually Grounded Ambiguity in Machine Translation

Ambiguity resolution is a key challenge in multimodal machine translation (MMT), where models must genuinely leverage visual input to map an ambiguous expression to its intended meaning. Although prior work has proposed disambiguation-oriented benchmarks that provide supportive e…