研究人员开发了一个新数据集,用于评估大型语言模型(LLMs)在日本的开放式法律推理能力。该数据集源自日本律师考试的写作部分,要求大型语言模型从复杂的叙事中识别法律问题并构建论点。专家对模型生成的回应进行的评估突显了当前法律推理能力的局限性,并指出了幻觉的实例,从而为大型语言模型在该专业领域的表现提供了见解。 AI
影响 为评估非英语司法管辖区内大型语言模型的法律推理能力提供了一个新的基准,可能指导未来法律应用的模型的开发。
排序理由 学术论文,展示了一个新数据集和对大型语言模型在特定任务上表现的专家评估。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →