PulseAugur
实时 23:49:46
实体 LegalCiteBench

LegalCiteBench

PulseAugur coverage of LegalCiteBench — every cluster mentioning LegalCiteBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_27503 ·

    新基准显示法律大模型在引文准确性方面存在困难

    研究人员开发了LegalCiteBench,这是一个旨在评估法律语言模型在生成准确案例引文方面的可靠性的新基准。该基准包含约24,000个实例,来源于1,000份美国司法判决书,侧重于引文检索、补全、错误检测和案例验证等任务。测试显示,即使是先进的模型在精确引文恢复方面也存在困难,在关键任务上的得分低于70%,许多模型表现出编造不正确或不相关引用的高比率。