English(EN) When the Gold Standard Isn't Necessarily Standard: Challenges of Evaluating the Translation of User-Generated Content

新研究强调了用户生成内容翻译评估的挑战

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员发现，由于用户生成内容（UGC）固有的非标准语言，评估其翻译存在重大挑战。他们开发了一个包含十二种非标准现象和五种翻译动作的分类法，以分析不同数据集如何处理UGC，揭示了参考翻译中标准程度的光谱。研究发现，大型语言模型的翻译得分对特定指令敏感，并且在与数据集指南保持一致时会得到改进，因此提倡使用符合指南的评估框架。 AI

影响强调了对处理多样化语言输入的LLM需要更细致的评估指标。

排序理由学术论文，详细介绍了特定NLP任务评估的挑战和拟议解决方案。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Lydia Nishimwe, Beno\^it Sagot, Rachel Bawden · 2026-06-02 04:00

当黄金标准不一定是标准：评估用户生成内容翻译的挑战

arXiv:2512.17738v3 Announce Type: replace Abstract: User-generated content (UGC) is characterised by frequent use of non-standard language, from spelling errors to expressive choices such as slang, character repetitions, and emojis. This makes evaluating UGC translation challengi…

报道来源 [1]

当黄金标准不一定是标准：评估用户生成内容翻译的挑战

相关实体

相关话题