PulseAugur
实时 16:48:55
English(EN) UrduMMLU: A Massive Multitask Benchmark for Urdu Language Understanding

新的UrduMMLU基准揭示了LLM的知识差距

研究人员开发了UrduMMLU,这是一个旨在评估大型语言模型对乌尔都语理解能力的新基准。该基准包含来自母语教育材料的26个学科的超过26,000个选择题。评估显示,Gemini-3.5-Flash在性能上领先,但许多其他模型,特别是开源模型,表现出显著的知识差距,尤其是在人文和社会科学以及地区特定内容方面。 AI

影响 凸显了LLM在乌尔都语理解方面的不均衡性,尤其是在地区特定内容方面,为未来模型开发提供指导。

排序理由 该集群包含一篇介绍用于评估LLM的新基准的研究论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Ahmer Tabassum, Sarfraz Ahmad, Hasan Iqbal, Owais Aijaz, Momina Ahsan, Preslav Nakov ·

    UrduMMLU:面向乌尔都语理解的大规模多任务基准测试

    arXiv:2606.07167v1 Announce Type: cross Abstract: Meaningful multilingual evaluation must test models in the target language and educational context. Urdu, spoken by more than 230 million people, lacks a broad MMLU-style benchmark built from native educational sources. We introdu…

  2. arXiv cs.CL TIER_1 English(EN) · Preslav Nakov ·

    UrduMMLU:面向乌尔都语理解的大规模多任务基准测试

    Meaningful multilingual evaluation must test models in the target language and educational context. Urdu, spoken by more than 230 million people, lacks a broad MMLU-style benchmark built from native educational sources. We introduce UrduMMLU, a benchmark of 26,431 Urdu MCQs acros…