PulseAugur
实时 21:56:11
English(EN) Human-Grounded Multimodal Benchmark with 900K-Scale Aggregated Student Response Distributions from Japan's National Assessment of Academic Ability

新的多模态基准使用900K份日本学生回应

研究人员开发了一个新的人本多模态基准,使用了来自日本全国学力测试的数据,该数据包含约90万份汇总的学生回应。该数据集包含科学、数学和日语科目的真实考试材料,保留了真实的布局和图表。它旨在通过允许模型和人类表现之间的直接比较,为多模态大语言模型(MLLMs)提供一个以人为本的评估框架。 AI

影响 为评估教育领域的多模态LLM,特别是日语评估,建立了一个新的人本基准。

排序理由 学术论文,介绍了一个用于评估多模态LLM的新数据集和基准。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的多模态基准使用900K份日本学生回应

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Yusuke Miyao ·

    Human-Grounded Multimodal Benchmark with 900K-Scale Aggregated Student Response Distributions from Japan's National Assessment of Academic Ability

    Authentic school examinations provide a high-validity test bed for evaluating multimodal large language models (MLLMs), yet benchmarks grounded in Japanese K-12 assessments remain scarce. We present a multimodal dataset constructed from Japan's National Assessment of Academic Abi…