研究人员开发了UrduMMLU,这是一个旨在评估大型语言模型对乌尔都语理解能力的新基准。该基准包含来自母语教育材料的26个学科的超过26,000个选择题。评估显示,Gemini-3.5-Flash在性能上领先,但许多其他模型,特别是开源模型,表现出显著的知识差距,尤其是在人文和社会科学以及地区特定内容方面。 AI
影响 凸显了LLM在乌尔都语理解方面的不均衡性,尤其是在地区特定内容方面,为未来模型开发提供指导。
排序理由 该集群包含一篇介绍用于评估LLM的新基准的研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →