研究人员开发了LegalCiteBench,这是一个旨在评估法律语言模型在生成准确案例引文方面的可靠性的新基准。该基准包含约24,000个实例,来源于1,000份美国司法判决书,侧重于引文检索、补全、错误检测和案例验证等任务。测试显示,即使是先进的模型在精确引文恢复方面也存在困难,在关键任务上的得分低于70%,许多模型表现出编造不正确或不相关引用的高比率。 AI
影响 新基准突显了法律大模型在引文可靠性方面存在的关键问题,可能影响其在法律起草和研究中的应用。
排序理由 该集群包含一篇介绍大模型评估新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →