English(EN) Position bias in LLM-as-judge flipped 18% of our verdicts

LLM 裁判显示 18% 的位置偏差；双重评分可降低错误率

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-25 06:31

Nexus Labs 的一项研究显示，用作裁判的大型语言模型 (LLM) 表现出明显的位置偏差，在 18% 的比较中偏爱第一个呈现的答案。这种偏差在 GPT-4o 和 Claude 3.5 Sonnet 等模型中均有观察到，较小模型的影响更为显著。为缓解此问题，Nexus Labs 实施了一种双重评分方法，其中每对响应都会以两种顺序进行评估，并且仅计算一致的判决，从而将翻转率降低到 4% 以下。 AI

影响突出了 LLM 评估中的一个关键缺陷，该缺陷可能扭曲基准测试结果并影响模型开发。

排序理由该项目详细介绍了关于 LLM 评估方法学的研究发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

dev.to — LLM tag TIER_1 English(EN) · Marcus Chen · 2026-06-25 06:31

Position bias in LLM-as-judge flipped 18% of our verdicts

TL;DR: Position bias in LLM-as-judge means the model favors whichever answer it reads first. We measured an 18% verdict flip rate from swapping order alone, and dual-pass scoring brought it under 4%. Our pairwise evaluation harness at Nexus Labs scored …

报道来源 [1]

Position bias in LLM-as-judge flipped 18% of our verdicts

相关实体

相关话题