English(EN) Human-Grounded Multimodal Benchmark with 900K-Scale Aggregated Student Response Distributions from Japan's National Assessment of Academic Ability

新的多模态基准使用900K份日本学生回应

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-12 07:22

研究人员开发了一个新的人本多模态基准，使用了来自日本全国学力测试的数据，该数据包含约90万份汇总的学生回应。该数据集包含科学、数学和日语科目的真实考试材料，保留了真实的布局和图表。它旨在通过允许模型和人类表现之间的直接比较，为多模态大语言模型（MLLMs）提供一个以人为本的评估框架。 AI

影响为评估教育领域的多模态LLM，特别是日语评估，建立了一个新的人本基准。

排序理由学术论文，介绍了一个用于评估多模态LLM的新数据集和基准。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Yusuke Miyao · 2026-05-12 07:22

Human-Grounded Multimodal Benchmark with 900K-Scale Aggregated Student Response Distributions from Japan's National Assessment of Academic Ability

Authentic school examinations provide a high-validity test bed for evaluating multimodal large language models (MLLMs), yet benchmarks grounded in Japanese K-12 assessments remain scarce. We present a multimodal dataset constructed from Japan's National Assessment of Academic Abi…

报道来源 [1]

Human-Grounded Multimodal Benchmark with 900K-Scale Aggregated Student Response Distributions from Japan's National Assessment of Academic Ability

相关实体

相关话题