大型语言模型在自动评分中难以处理部分正确答案

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 04:00

一篇新研究论文探讨了使用大型语言模型（LLMs）进行自动短答案评分（ASAS）所面临的挑战。研究发现，虽然像GPT-5.2、GPT-4o和Claude Opus 4.5这样的LLMs在评分完全正确或完全错误的答案时表现良好，但在评分部分正确的响应时，其性能会显著下降。这种性能下降在少样本LLMs中更为明显，并且随着任务特定适应性的增强而减小。经过微调的BERT模型在这些细微答案上的表现更好。该研究强调了由于这种中等范围的评分问题，可能导致学生回答的评估不公平。 AI

影响凸显了人工智能驱动的教育评估中潜在的不公平性，特别是对于学生细微或发展中的理解。

排序理由这是一篇详细介绍LLM在特定任务中表现的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Abigail Victoria Gurin Schleifer, Moriah Ariely, Beata Beigman Klebanov, Asaf Salman, Giora Alexandron · 2026-05-26 04:00

自动化短答案评分中的质量条件协议：中等范围退化及任务特定适应的影响

arXiv:2605.07647v2 Announce Type: replace-cross Abstract: Automated short answer scoring (ASAS) is shifting from discriminative, fine-tuned models to large language models (LLMs) used in few-shot settings. This paradigm leverages LLMs broad world knowledge and ease of deployment,…

报道来源 [1]

自动化短答案评分中的质量条件协议：中等范围退化及任务特定适应的影响

相关实体

相关话题