English(EN) UrduMMLU: A Massive Multitask Benchmark for Urdu Language Understanding

新的UrduMMLU基准揭示了LLM的知识差距

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-05 11:35

研究人员开发了UrduMMLU，这是一个旨在评估大型语言模型对乌尔都语理解能力的新基准。该基准包含来自母语教育材料的26个学科的超过26,000个选择题。评估显示，Gemini-3.5-Flash在性能上领先，但许多其他模型，特别是开源模型，表现出显著的知识差距，尤其是在人文和社会科学以及地区特定内容方面。 AI

影响凸显了LLM在乌尔都语理解方面的不均衡性，尤其是在地区特定内容方面，为未来模型开发提供指导。

排序理由该集群包含一篇介绍用于评估LLM的新基准的研究论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Ahmer Tabassum, Sarfraz Ahmad, Hasan Iqbal, Owais Aijaz, Momina Ahsan, Preslav Nakov · 2026-06-08 04:00

UrduMMLU：面向乌尔都语理解的大规模多任务基准测试

arXiv:2606.07167v1 Announce Type: cross Abstract: Meaningful multilingual evaluation must test models in the target language and educational context. Urdu, spoken by more than 230 million people, lacks a broad MMLU-style benchmark built from native educational sources. We introdu…
arXiv cs.CL TIER_1 English(EN) · Preslav Nakov · 2026-06-05 11:35

UrduMMLU：面向乌尔都语理解的大规模多任务基准测试

Meaningful multilingual evaluation must test models in the target language and educational context. Urdu, spoken by more than 230 million people, lacks a broad MMLU-style benchmark built from native educational sources. We introduce UrduMMLU, a benchmark of 26,431 Urdu MCQs acros…

报道来源 [2]

UrduMMLU：面向乌尔都语理解的大规模多任务基准测试

UrduMMLU：面向乌尔都语理解的大规模多任务基准测试

相关实体

相关话题