研究人员开发了一个新的人本多模态基准,使用了来自日本全国学力测试的数据,该数据包含约90万份汇总的学生回应。该数据集包含科学、数学和日语科目的真实考试材料,保留了真实的布局和图表。它旨在通过允许模型和人类表现之间的直接比较,为多模态大语言模型(MLLMs)提供一个以人为本的评估框架。 AI
影响 为评估教育领域的多模态LLM,特别是日语评估,建立了一个新的人本基准。
排序理由 学术论文,介绍了一个用于评估多模态LLM的新数据集和基准。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →