English(EN) The Ghost Annotator: a Framework to Explore Human Label Variation in Content Moderation through Conformal Prediction

新框架分析内容审核中的大型语言模型偏见

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-03 04:00

研究人员开发了一个名为“幽灵标注器”的新框架，用于分析内容审核任务中人类标注的变异性，特别是在使用大型语言模型进行标注时。该框架结合了一致性预测和协同过滤，以模拟大型语言模型相对于人类标注者的行为，识别模型预测与人类共识不符的情况。研究发现，较大的大型语言模型在对与任何人类标注都不符的内容进行分类时往往更自信，并揭示了人口统计学不匹配的一致模式，这表明预训练数据中存在偏见。 AI

影响该框架有助于识别和减轻用于内容审核的大型语言模型中的偏见，从而实现更公平、更可靠的人工智能系统。

排序理由该集群包含一篇学术论文，详细介绍了分析大型语言模型行为和偏见的新框架和方法论。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Mirko Lai, Alessandra Urbinati, Simona Frenda, Fabiana Vernero, Marco Antonio Stranisci · 2026-06-03 04:00

幽灵标注器：通过一致性预测探索内容审核中人类标注变异的框架

arXiv:2606.02911v1 Announce Type: new Abstract: Current research primarily focuses on model performance, while comparatively less attention has been devoted to uncertainty estimation, particularly in settings where LLMs are increasingly used to generate annotated data. We introdu…

报道来源 [1]

幽灵标注器：通过一致性预测探索内容审核中人类标注变异的框架

相关实体

相关话题