English(EN) Evaluating Large Language Models for Hausa and Fongbe Machine Translation: Benchmarks, Failures, and Metric Reliability

大型语言模型在豪萨语和芳语翻译方面表现不佳，指标不可靠

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-20 23:23

一项新研究评估了四种大型语言模型（LLMs）在豪萨语和芳语（两种西非语言）上的机器翻译能力。研究发现，虽然GPT-4o mini等模型在豪萨语翻译方面达到了可接受的质量，但所有评估系统在芳语翻译方面表现都很差。模型在两种语言之间的表现差异很大，Gemini 2.5 Flash在芳语方面领先，GPT-4o mini在豪萨语方面领先，这表明在一种低资源语言上的表现并不能预测在另一种语言上的表现。研究还强调了标准自动评估指标存在的问题，这些指标与人类判断在豪萨语上的相关性较弱，并且由于神经指标中的嵌入折叠问题，在两种语言上都存在局限性。 AI

影响强调了当前大型语言模型在低资源语言方面的局限性以及标准翻译指标的不可靠性，有必要进行仔细评估。

排序理由学术论文，评估大型语言模型在特定语言和指标上的表现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Prasenjit Mitra · 2026-06-20 23:23

评估大型语言模型在豪萨语和芳贝语机器翻译中的表现：基准、失败案例及评估指标可靠性

We investigate the translation quality of current large language models (LLMs) for English-to-Hausa and English-to-Fongbe - two typologically distinct West African languages from the Afroasiatic and Niger-Congo families respectively - and evaluate whether standard automatic metri…

报道来源 [1]

评估大型语言模型在豪萨语和芳贝语机器翻译中的表现：基准、失败案例及评估指标可靠性

相关实体

相关话题