PulseAugur
实时 11:50:02
English(EN) EduArt: An educational-level benchmark for evaluating art history knowledge in large language models

新的EduArt基准揭示了大型语言模型在艺术史知识方面的局限性

研究人员推出了EduArt,这是一个旨在评估多模态大型语言模型艺术史知识和视觉推理能力的新基准。该基准包含871个问题,这些问题来源于意大利中学的练习题和美国大学预修艺术史考试,涵盖了多种格式和语言。对十二个模型的评估显示,虽然许多模型在选择题上表现接近满分,但在开放式填空和错误识别等更复杂的格式上,其准确率显著下降,这表明知识回忆与应用之间存在脱节。 AI

影响 强调了需要多样化的评估方法来准确衡量大型语言模型在简单识别任务之外的能力。

排序理由 该集群描述了一个用于评估大型语言模型的新学术基准,该基准在一篇研究论文中提出。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新的EduArt基准揭示了大型语言模型在艺术史知识方面的局限性

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Gianmarco Spinaci, Lukas Klic, Giovanni Colavizza ·

    EduArt: An educational-level benchmark for evaluating art history knowledge in large language models

    arXiv:2607.02007v1 Announce Type: new Abstract: Large language models now score near ceiling on general benchmarks, but these aggregate measures reveal little about how models behave within single disciplines. Existing art-focused evaluations rely on synthetic questions and rarel…

  2. arXiv cs.CL TIER_1 English(EN) · Giovanni Colavizza ·

    EduArt: An educational-level benchmark for evaluating art history knowledge in large language models

    Large language models now score near ceiling on general benchmarks, but these aggregate measures reveal little about how models behave within single disciplines. Existing art-focused evaluations rely on synthetic questions and rarely report item-level properties. This paper intro…