研究人员推出了JudgmentBench,一个新基准数据集,旨在比较基于评分标准的评分与成对偏好判断在评估AI模型输出方面的效果。该数据集包含1,539个评分标准分数和1,530个来自执业律师对30个真实世界法律任务的成对偏好判断。初步研究结果表明,成对偏好在恢复质量排序方面比评分标准更有效,斯皮尔曼秩相关系数达到0.908,而评分标准为0.150,同时所需的标注时间也更少。 AI
影响 这项研究提供了一种更有效、更高效的方法来评估AI模型输出,尤其是在专业领域,可能改进未来的AI开发和部署。
排序理由 该集群包含一篇详细介绍新基准数据集和评估方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →