一项发表在arXiv上的新研究探讨了使用大型语言模型(LLMs)对研究生软件工程作业进行评分。研究人员发现,虽然像Grok和GPT这样的大型语言模型可以减轻教育者的工作量,但它们在模型内部和模型之间都表现出显著的评分不一致性。研究还强调,由于持续的交互历史,模型的评分标准可能会偏离人类专家的分数,从而可能引入系统性的不公平。 AI
影响 强调了在教育中谨慎实施大型语言模型以确保评分公平性和一致性的必要性。
排序理由 该集群包含一篇详细介绍大型语言模型能力研究结果的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →