English(EN) LegalCiteBench: Evaluating Citation Reliability in Legal Language Models

新基准显示法律大模型在引文准确性方面存在困难

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-11 08:37

研究人员开发了LegalCiteBench，这是一个旨在评估法律语言模型在生成准确案例引文方面的可靠性的新基准。该基准包含约24,000个实例，来源于1,000份美国司法判决书，侧重于引文检索、补全、错误检测和案例验证等任务。测试显示，即使是先进的模型在精确引文恢复方面也存在困难，在关键任务上的得分低于70%，许多模型表现出编造不正确或不相关引用的高比率。 AI

影响新基准突显了法律大模型在引文可靠性方面存在的关键问题，可能影响其在法律起草和研究中的应用。

排序理由该集群包含一篇介绍大模型评估新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Shunfan Zhou · 2026-05-11 08:37

LegalCiteBench：评估法律语言模型中的引用可靠性

Large language models (LLMs) are increasingly integrated into legal drafting and research workflows, where incorrect citations or fabricated precedents can cause serious professional harm. Existing legal benchmarks largely emphasize statutory reasoning, contract understanding, or…

报道来源 [1]

LegalCiteBench：评估法律语言模型中的引用可靠性

相关实体

相关话题