一项新的研究论文探讨了大语言模型(LLMs)与人类对仇恨言论判断的一致性,评估了Llama 3.1和Qwen 2.5。研究发现,模型在显性行为维度上表现良好,但在情感和仇恨言论等评估维度上显示出反向相关性。研究人员提出了一种使用属性级预测来重建仇恨言论分数的方法,R^2值最高可达0.71,优于直接提示。 AI
影响 揭示了大语言模型在评估性仇恨言论维度上的对齐系统性反转,提出了更符合人类信号重建的新方法。
排序理由 该集群包含一篇研究论文,详细分析了大语言模型与主观属性(与仇恨言论相关)的人类判断的一致性。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →