English(EN) JudgmentBench: Comparing Rubric and Preference Evaluation for Quality Assessment

JudgmentBench数据集显示偏好判断在AI评估中优于评分标准

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 04:00

研究人员推出了JudgmentBench，一个新基准数据集，旨在比较基于评分标准的评分与成对偏好判断在评估AI模型输出方面的效果。该数据集包含1,539个评分标准分数和1,530个来自执业律师对30个真实世界法律任务的成对偏好判断。初步研究结果表明，成对偏好在恢复质量排序方面比评分标准更有效，斯皮尔曼秩相关系数达到0.908，而评分标准为0.150，同时所需的标注时间也更少。 AI

影响这项研究提供了一种更有效、更高效的方法来评估AI模型输出，尤其是在专业领域，可能改进未来的AI开发和部署。

排序理由该集群包含一篇详细介绍新基准数据集和评估方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Russell Yang, Ruishi Chen, Pierce Kelaita, Riya Ranjan, Sibo Ma, Charles Dickens, Matthew Guillod, Megan Ma, Julian Nyarko · 2026-05-26 04:00

JudgmentBench: Comparing Rubric and Preference Evaluation for Quality Assessment

arXiv:2605.25240v1 Announce Type: cross Abstract: Two methodologies dominate current practices of benchmarking: rubric-based scoring evaluates items against predefined criteria, whereas comparative judgment elicits pairwise preferences between outputs. Although both methodologies…

报道来源 [1]

JudgmentBench: Comparing Rubric and Preference Evaluation for Quality Assessment

相关实体

相关话题