一篇新研究论文探讨了使用大型语言模型(LLMs)进行自动短答案评分(ASAS)所面临的挑战。研究发现,虽然像GPT-5.2、GPT-4o和Claude Opus 4.5这样的LLMs在评分完全正确或完全错误的答案时表现良好,但在评分部分正确的响应时,其性能会显著下降。这种性能下降在少样本LLMs中更为明显,并且随着任务特定适应性的增强而减小。经过微调的BERT模型在这些细微答案上的表现更好。该研究强调了由于这种中等范围的评分问题,可能导致学生回答的评估不公平。 AI
影响 凸显了人工智能驱动的教育评估中潜在的不公平性,特别是对于学生细微或发展中的理解。
排序理由 这是一篇详细介绍LLM在特定任务中表现的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →