Machine Translation Evaluation Fails to Predict Downstream Discourse Success

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-15 11:44

A new research paper explores the limitations of current machine translation (MT) evaluation metrics by proposing extrinsic discourse evaluations. The study introduces an entity counting task to assess referential consistency and uses the Welfare Diplomacy game to evaluate communication and coordination in interactive settings. Findings indicate that high intrinsic MT quality does not guarantee downstream discourse success, and translation failures can significantly impact coordination in goal-oriented environments. AI

影响 Highlights the need for new evaluation methods that capture real-world performance of machine translation systems.

排序理由 The cluster contains an academic paper published on arXiv detailing new research methods for evaluating machine translation.

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Wafaa Mohammed, Kata Naszadi, Vlad Niculae · 2026-06-16 04:00

How Far Can Machine Translation Quality Take You? Extrinsic Discourse Evaluation in Goal-Oriented Setups

arXiv:2606.16596v1 Announce Type: new Abstract: Existing machine translation (MT) metrics and discourse-focused evaluations primarily assess translation quality intrinsically, without measuring the downstream consequences of translation errors. In this work, we focus on extrinsic…
arXiv cs.CL TIER_1 English(EN) · Vlad Niculae · 2026-06-15 11:44

How Far Can Machine Translation Quality Take You? Extrinsic Discourse Evaluation in Goal-Oriented Setups

Existing machine translation (MT) metrics and discourse-focused evaluations primarily assess translation quality intrinsically, without measuring the downstream consequences of translation errors. In this work, we focus on extrinsic discourse evaluation of machine translation und…

报道来源 [2]

How Far Can Machine Translation Quality Take You? Extrinsic Discourse Evaluation in Goal-Oriented Setups

How Far Can Machine Translation Quality Take You? Extrinsic Discourse Evaluation in Goal-Oriented Setups

相关实体

相关话题