一项关于泰国律师考试的新研究表明,虽然人类考官有时会因模糊的评分标准解释而在自由格式论文评分上产生分歧,但大型语言模型(LLM)在绝大多数情况下会与多数人类的解读保持一致。在测试的26个LLM中,没有一个在面对正确答案但缺少法定引文时会复制少数人类的评分观点。一个由三个LLM组成的锚定小组取得了高一致性得分(alpha=0.77),而人类小组的得分为(alpha=0.36),这凸显了LLM倾向于与主流人类解读保持一致,而不是探索其他有效的解读。 AI
影响 LLM裁判员显示出与多数人类解读保持一致的强烈倾向,这可能限制了它们在主观评估中捕捉细微差别或少数观点的效用。
排序理由 该集群包含一篇详细介绍LLM在特定领域表现的研究的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →