PulseAugur
实时 08:53:52
English(EN) Position bias in LLM-as-judge flipped 18% of our verdicts

LLM 裁判显示 18% 的位置偏差;双重评分可降低错误率

Nexus Labs 的一项研究显示,用作裁判的大型语言模型 (LLM) 表现出明显的位置偏差,在 18% 的比较中偏爱第一个呈现的答案。这种偏差在 GPT-4oClaude 3.5 Sonnet 等模型中均有观察到,较小模型的影响更为显著。为缓解此问题,Nexus Labs 实施了一种双重评分方法,其中每对响应都会以两种顺序进行评估,并且仅计算一致的判决,从而将翻转率降低到 4% 以下。 AI

影响 突出了 LLM 评估中的一个关键缺陷,该缺陷可能扭曲基准测试结果并影响模型开发。

排序理由 该项目详细介绍了关于 LLM 评估方法学的研究发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

LLM 裁判显示 18% 的位置偏差;双重评分可降低错误率

报道来源 [1]

  1. dev.to — LLM tag TIER_1 English(EN) · Marcus Chen ·

    Position bias in LLM-as-judge flipped 18% of our verdicts

    <p><strong>TL;DR:</strong> Position bias in LLM-as-judge means the model favors whichever answer it reads first. We measured an 18% verdict flip rate from swapping order alone, and dual-pass scoring brought it under 4%.</p> <p>Our pairwise evaluation harness at Nexus Labs scored …