实体 LP-Eval

LP-Eval

PulseAugur coverage of LP-Eval — every cluster mentioning LP-Eval across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_40794 · May 19 · 13:10

新的评分标准评估大语言模型生成的法律命题

研究人员开发了LP-Eval，这是一个新的评分标准和数据集，旨在衡量大语言模型生成的法律命题的质量。该评分标准与法律专家共同创建，基于形式有效性和实质性维度，并使用欧洲联盟法院的判决。研究结果表明，大语言模型可以生成格式正确的法律命题，其质量因源案例的近期性而异。此外，研究发现大语言模型可以充当评估者，与专家评估相比，在遵循评分标准的指导下，其评估结果与专家评估的一致性更好。