一项涉及55个大语言模型的最新研究揭示了它们在评分其他模型时存在显著的自我偏见。在一项模型互相盲评的评估中,大多数模型家族都表现出对其同类的偏好。值得注意的是,Qwen模型对其同类的评分偏袒约0.9分,而Mistral模型则表现出最大的负偏见,对其同类的评分惩罚约1.0分。 AI
影响 揭示了大语言模型评估中潜在的偏见,表明模型性能指标可能因自我偏好而产生偏差。
排序理由 该集群描述了对多个大语言模型进行的独立评估结果,类似于学术研究。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →