研究人员开发了一个名为“幽灵标注器”的新框架,用于分析内容审核任务中人类标注的变异性,特别是在使用大型语言模型进行标注时。该框架结合了一致性预测和协同过滤,以模拟大型语言模型相对于人类标注者的行为,识别模型预测与人类共识不符的情况。研究发现,较大的大型语言模型在对与任何人类标注都不符的内容进行分类时往往更自信,并揭示了人口统计学不匹配的一致模式,这表明预训练数据中存在偏见。 AI
影响 该框架有助于识别和减轻用于内容审核的大型语言模型中的偏见,从而实现更公平、更可靠的人工智能系统。
排序理由 该集群包含一篇学术论文,详细介绍了分析大型语言模型行为和偏见的新框架和方法论。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →