实体 JudgeBench: A Benchmark for Evaluating LLM-based Judges

JudgeBench: A Benchmark for Evaluating LLM-based Judges

PulseAugur coverage of JudgeBench: A Benchmark for Evaluating LLM-based Judges — every cluster mentioning JudgeBench: A Benchmark for Evaluating LLM-based Judges across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 3

发布 · 30天

90 天内 0

论文 · 30天

90 天内 3

层级分布 · 90 天

主题

论文 3
模型发布 2
安全 1

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 3 条

RESEARCH · CL_99671 · Jun 17 · 19:37

研究发现，LLM作为评委模型存在显著的可靠性和偏差问题

一项对LLM作为评委模型进行评估的新研究揭示了其在可靠性和有效性方面存在的显著问题。该研究分析了21个评委模型在多个基准测试和超过541,000个判断中的表现，发现像精确匹配一致性这样的常用评估指标系统性地夸大了模型的区分能力。主要发现包括：使用Cohen's kappa与精确匹配相比，分数普遍下降；评委排名在不同基准测试中发生显著变化；以及一种悖论，即某些已部署的评委模型在具有高重测信度的情况下，却存在严重的定位偏差。
TOOL · CL_77334 · Jun 8 · 04:00

AdaJudge框架通过自适应池化改进LLM奖励建模

研究人员推出AdaJudge，一个旨在提高大型语言模型（LLM）奖励建模准确性的新颖框架。该方法通过自适应模型表示及其聚合方法，解决了当前静态池化策略的局限性。AdaJudge采用门控细化块来创建面向判别的表示，并使用自适应多视角池化模块进行动态证据组合。在RM-Bench和JudgeBench上的实验表明，AdaJudge的性能优于现有的奖励模型和池化基线。
RESEARCH · CL_36948 · May 13 · 15:48

RTLC提示将LLM裁判准确率提升14个百分点

研究人员开发了一种名为RTLC（研究、教学、批判）的新型三阶段提示技术，该技术显著提高了大型语言模型作为裁判时的准确性。该方法受费曼学习法启发，无需微调或外部工具即可提升单个LLM的性能。当应用于Claude 3.7 Sonnet在JudgeBench-GPT数据集上时，RTLC将成对准确率从64.6%提升到78.6%，优于其他集成方法。

研究发现，LLM作为评委模型存在显著的可靠性和偏差问题

AdaJudge框架通过自适应池化改进LLM奖励建模

RTLC提示将LLM裁判准确率提升14个百分点