English(EN) Impacts of Histories and Models on LLM Grading: A Study in Advanced Software Engineering Courses

大型语言模型评分不一致，可能导致软件工程课程不公平

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-07 01:31

一项发表在arXiv上的新研究探讨了使用大型语言模型（LLMs）对研究生软件工程作业进行评分。研究人员发现，虽然像Grok和GPT这样的大型语言模型可以减轻教育者的工作量，但它们在模型内部和模型之间都表现出显著的评分不一致性。研究还强调，由于持续的交互历史，模型的评分标准可能会偏离人类专家的分数，从而可能引入系统性的不公平。 AI

影响强调了在教育中谨慎实施大型语言模型以确保评分公平性和一致性的必要性。

排序理由该集群包含一篇详细介绍大型语言模型能力研究结果的学术论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Qilin Zhou, Zhuo Wang, Yue Li, W. K. Chan · 2026-06-09 04:00

历史和模型对LLM评分的影响：一项高级软件工程课程研究

arXiv:2606.08400v1 Announce Type: cross Abstract: Graduate-level research reading report assessment creates a substantial labor burden for educators. While large language models (LLMs) hold great potential for automating academic grading, their reliability for this specialized ta…
arXiv cs.AI TIER_1 English(EN) · W. K. Chan · 2026-06-07 01:31

历史和模型对LLM评分的影响：一项高级软件工程课程研究

Graduate-level research reading report assessment creates a substantial labor burden for educators. While large language models (LLMs) hold great potential for automating academic grading, their reliability for this specialized task remains understudied, particularly regarding gr…

报道来源 [2]

历史和模型对LLM评分的影响：一项高级软件工程课程研究

历史和模型对LLM评分的影响：一项高级软件工程课程研究

相关实体

相关话题