一项名为Nsanku的新基准测试被开发出来,用于评估19个大型语言模型在43种加纳语种上的零样本翻译能力。研究发现,虽然Gemini 2.5 Flash在专有模型中表现最佳,Kimi-K2-Instruct-0905在开源模型中领先,但没有一个大型语言模型同时达到高绩效和高一致性。这表明当前模型尚未能可靠地大规模翻译这些低资源语言。 AI
影响 凸显了大型语言模型在低资源非洲语言翻译能力上的显著差距,需要进一步的研究和开发。
排序理由 这是一篇研究论文,提出了一个新的基准测试,用于评估大型语言模型在低资源语言上的翻译性能。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →