研究人员开发了LEGIT,这是一个包含24,000个法律推理实例的新数据集,旨在评估LLM生成的法律论证的质量。该数据集将法院判决转化为论证和结论的层级树,作为评估推理痕迹的评分标准。使用LEGIT进行的实验表明,LLM的法律推理受到问题覆盖率和正确性的显著影响,并且检索增强生成(RAG)和强化学习(RL)提供了互补的优势,RAG增强了整体能力,而RL以覆盖率为代价提高了正确性。 AI
影响 引入了一个新的数据集和评估框架,用于评估LLM的法律推理能力,有可能提高AI在法律应用中的可靠性。
排序理由 这是一篇介绍LLM法律推理新数据集和评估方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →