引入了一个包含32,534份真实学生对英国GCSE模拟考试的双重评分回复的新数据集,涵盖了五个学科的328个问题,包括手写作业。研究人员发现,当前的大型语言模型与考官的共识非常接近,甚至在主观任务(如英语论文和复杂的手写数学试卷)上超过了人类考官之间的一致性。研究表明,LLM提供了具有成本效益的自动评分解决方案,并且无论模型大小如何,一致性水平都保持很高。 AI
影响 LLM在教育环境中展示了具有成本效益的自动评分的强大潜力,即使对于主观和复杂的任务也是如此。
排序理由 该集群包含一篇学术论文,该论文引入了一个新的数据集并评估了LLM在特定基准测试上的表现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →