两篇新研究论文探讨了大型语言模型(LLMs)在自动化作文评分(AES)方面的有效性。第一篇论文综合了 65 项研究,发现 LLM 与人类在作文评分上的一致性高度依赖于上下文,并且差异显著。第二篇论文研究了在学习者语料库上进行领域自适应预训练(DAPT)以用于 AES,表明虽然有针对性的 DAPT 可以提高领域内评分,但并不能持续增强跨数据集的可迁移性。 AI
影响 这些研究突显了 LLM 在教育评估中的细微表现,指出了在可靠应用方面需要进一步研究和开发的领域。
排序理由 该集群包含两篇在 arXiv 上发表的学术论文,讨论了与 LLM 和自动化作文评分相关的研究结果。
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →