English(EN) Evaluating Legal Reasoning Traces with Legal Issue Tree Rubrics

新的LEGIT数据集使用问题树评分标准评估LLM法律推理

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-04 04:00

研究人员开发了LEGIT，这是一个包含24,000个法律推理实例的新数据集，旨在评估LLM生成的法律论证的质量。该数据集将法院判决转化为论证和结论的层级树，作为评估推理痕迹的评分标准。使用LEGIT进行的实验表明，LLM的法律推理受到问题覆盖率和正确性的显著影响，并且检索增强生成（RAG）和强化学习（RL）提供了互补的优势，RAG增强了整体能力，而RL以覆盖率为代价提高了正确性。 AI

影响引入了一个新的数据集和评估框架，用于评估LLM的法律推理能力，有可能提高AI在法律应用中的可靠性。

排序理由这是一篇介绍LLM法律推理新数据集和评估方法的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Jinu Lee, Kyoung-Woon On, Simeng Han, Arman Cohan, Julia Hockenmaier · 2026-05-04 04:00

使用法律问题树评分标准评估法律推理痕迹

arXiv:2512.01020v2 Announce Type: replace-cross Abstract: Evaluating the quality of LLM-generated reasoning traces in expert domains (e.g., law) is essential for ensuring credibility and explainability, yet remains challenging due to the inherent complexity of such reasoning task…

报道来源 [1]

使用法律问题树评分标准评估法律推理痕迹

相关实体

相关话题