研究人员开发了一个名为GradeLegal的系统,利用大型语言模型自动评分德国法律考试答案。该研究评估了27种不同的LLM和各种提示策略,发现在公法领域,面向推理的模型可以与专家评分者达到高度一致,二次加权Kappa系数达到0.91。然而,在刑法领域的表现较低,表明这是一项更具挑战性的任务。集成多个模型进一步提高了评分准确性,为顶级专有模型提供了一种潜在的替代方案。 AI
影响 自动化评分系统可以为法律专业的学生提供更便捷的反馈,并减少教育工作者的瓶颈。
排序理由 该集群包含一篇学术论文,提出了用于特定任务的LLM的新方法和评估。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →