一篇新论文探讨了使用生成式AI模型对K-12评估进行评分,重点关注上下文工程和提示设计。研究人员使用MCAS数据,在数学、科学和ELA(英语语言艺术)领域评估了Claude Sonnet 4、Haiku 4.5、GPT-5和GPT-5 Mini等模型。研究发现,LLM评分器,特别是参数更多的模型,在数学和科学领域与人类评分者有实质性的一致性,尽管在ELA领域的表现有所不同。虽然AI生成的叙述性反馈受到好评,但生成的数值分数引起了怀疑,这表明LLM作为形成性工具更有效。 AI
影响 表明LLM可以有效地协助教育工作者进行评分,有可能减轻工作量并提高反馈质量,尤其是在STEM学科中。
排序理由 该集群包含一篇详细介绍AI模型在教育评估中研究的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →