PulseAugur
实时 11:51:21

大型语言模型在自动评分中难以处理部分正确答案

一篇新研究论文探讨了使用大型语言模型(LLMs)进行自动短答案评分(ASAS)所面临的挑战。研究发现,虽然像GPT-5.2、GPT-4o和Claude Opus 4.5这样的LLMs在评分完全正确或完全错误的答案时表现良好,但在评分部分正确的响应时,其性能会显著下降。这种性能下降在少样本LLMs中更为明显,并且随着任务特定适应性的增强而减小。经过微调的BERT模型在这些细微答案上的表现更好。该研究强调了由于这种中等范围的评分问题,可能导致学生回答的评估不公平。 AI

影响 凸显了人工智能驱动的教育评估中潜在的不公平性,特别是对于学生细微或发展中的理解。

排序理由 这是一篇详细介绍LLM在特定任务中表现的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Abigail Victoria Gurin Schleifer, Moriah Ariely, Beata Beigman Klebanov, Asaf Salman, Giora Alexandron ·

    自动化短答案评分中的质量条件协议:中等范围退化及任务特定适应的影响

    arXiv:2605.07647v2 Announce Type: replace-cross Abstract: Automated short answer scoring (ASAS) is shifting from discriminative, fine-tuned models to large language models (LLMs) used in few-shot settings. This paradigm leverages LLMs broad world knowledge and ease of deployment,…