研究人员推出了EDU-CIRCUIT-HW,一个包含1300多份大学STEM学生手写解题的新数据集,用于评估多模态大语言模型(MLLMs)。该数据集旨在解决MLLMs准确解读复杂手写内容(包括公式和图表)的挑战,而现有基准未能涵盖这些内容。评估显示,MLLMs的识别存在显著的潜在错误,表明其在自动评分等高风险教育应用中不可靠。提出的解决方案采用混合方法,预先纠正已识别的识别错误,将一小部分作业转交给人工评分员,其余则由AI评分员处理。 AI
影响 新数据集突显了MLLMs在解读复杂手写STEM作业方面的局限性,影响了AI驱动的教育工具。
排序理由 发布了一个新的数据集和相关的研究论文,评估AI模型。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →