一篇新发表在arXiv上的研究调查了使用大型语言模型(LLM)作为物理评估自动评分器的有效性。研究发现,LLM的性能高度依赖于具体任务,在结构化问题和基于代码的绘图元素上,模型与人类评分者表现出高度一致性。然而,LLM在评分论述题时表现不佳,与人类评估者相比,评分更严苛且变数更大,即使有评分标准,其对响应质量进行排名的能力仍然很低。研究得出结论,LLM在评估中的有效性比模型的原始能力更依赖于任务的结构和人类基准的可靠性。 AI
影响 LLM评分的有效性取决于任务,这表明在教育应用中需要谨慎实施。
排序理由 研究论文发表在arXiv上,详细介绍了LLM在教育评估中的表现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →