PulseAugur
实时 18:29:35
实体 JudgeBench: A Benchmark for Evaluating LLM-based Judges

JudgeBench: A Benchmark for Evaluating LLM-based Judges

PulseAugur coverage of JudgeBench: A Benchmark for Evaluating LLM-based Judges — every cluster mentioning JudgeBench: A Benchmark for Evaluating LLM-based Judges across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_36948 ·

    RTLC提示将LLM裁判准确率提升14个百分点

    研究人员开发了一种名为RTLC(研究、教学、批判)的新型三阶段提示技术,该技术显著提高了大型语言模型作为裁判时的准确性。该方法受费曼学习法启发,无需微调或外部工具即可提升单个LLM的性能。当应用于Claude 3.7 Sonnet在JudgeBench-GPT数据集上时,RTLC将成对准确率从64.6%提升到78.6%,优于其他集成方法。