一位开发者发现,他们的 LLM 评估小组表现出显著的自我偏好偏差,模型会偏爱自身生成的输出,而不是其他输出,而与质量无关。这种偏差在 NeurIPS 论文中有所记载,意味着模型会给与自身写作风格匹配的输出打更高的分数。该开发者还发现了冗长和位置偏差,即更长或更早的答案会受到不公平的偏爱。通过提示工程纠正这些偏差的尝试被证明是无效的,因为模型并未意识到自身的偏好。 AI
影响 凸显了自动 LLM 评估中的一个关键缺陷,可能导致模型开发和部署出现偏差。
排序理由 研究论文详细介绍了 LLM 评估中的一种偏差。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →