Nexus Labs 的一项研究显示,用作裁判的大型语言模型 (LLM) 表现出明显的位置偏差,在 18% 的比较中偏爱第一个呈现的答案。这种偏差在 GPT-4o 和 Claude 3.5 Sonnet 等模型中均有观察到,较小模型的影响更为显著。为缓解此问题,Nexus Labs 实施了一种双重评分方法,其中每对响应都会以两种顺序进行评估,并且仅计算一致的判决,从而将翻转率降低到 4% 以下。 AI
影响 突出了 LLM 评估中的一个关键缺陷,该缺陷可能扭曲基准测试结果并影响模型开发。
排序理由 该项目详细介绍了关于 LLM 评估方法学的研究发现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →