PulseAugur
实时 15:01:58
实体 UrduMMLU

UrduMMLU

PulseAugur coverage of UrduMMLU — every cluster mentioning UrduMMLU across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_76804 ·

    新的UrduMMLU基准揭示了LLM的知识差距

    研究人员开发了UrduMMLU,这是一个旨在评估大型语言模型对乌尔都语理解能力的新基准。该基准包含来自母语教育材料的26个学科的超过26,000个选择题。评估显示,Gemini-3.5-Flash在性能上领先,但许多其他模型,特别是开源模型,表现出显著的知识差距,尤其是在人文和社会科学以及地区特定内容方面。