PulseAugur
实时 10:18:15
实体 Classical test theory

Classical test theory

PulseAugur coverage of Classical test theory — every cluster mentioning Classical test theory across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_123161 ·

    新的EduArt基准揭示了大型语言模型在艺术史知识方面的局限性

    研究人员推出了EduArt,这是一个旨在评估多模态大型语言模型艺术史知识和视觉推理能力的新基准。该基准包含871个问题,这些问题来源于意大利中学的练习题和美国大学预修艺术史考试,涵盖了多种格式和语言。对十二个模型的评估显示,虽然许多模型在选择题上表现接近满分,但在开放式填空和错误识别等更复杂的格式上,其准确率显著下降,这表明知识回忆与应用之间存在脱节。