English(EN) Are we chasing ghosts? Quantifying unattributable polarization, and attributing the rest to annotator groups

新指标量化NLP数据中的两极分化，并将其与标注者人口统计学特征联系起来

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-01 04:00

研究人员开发了一种新指标和一个开源Python库，以更好地量化和归因主观NLP数据集中的两极分化。现有方法在处理固有的两极分化和抵消效应方面存在困难，但新方法识别出归因于特定标注者群体的两极分化的统计学显著性。将其应用于四个数据集后发现，性别和种族持续解释了两极分化模式，并且随着群体差异的扩大，差异会加剧。 AI

影响为评估主观NLP任务提供了一种更稳健的方法，有可能提高在此类数据上训练的模型的可靠性。

排序理由该集群包含一篇学术论文，详细介绍了用于分析NLP数据集中两极分化新指标和开源实现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Dimitris Tsirmpas, John Pavlopoulos · 2026-06-01 04:00

我们是在追逐虚无缥缈的东西吗？量化无法归因的两极分化，并将剩余部分归因于标注者群体

arXiv:2602.06055v2 Announce Type: replace Abstract: Standard agreement metrics often fail to capture systematic differences in opinion between minority and majority-group annotators, jeopardizing tasks such as hate speech and toxicity detection. Polarization has recently been pro…

报道来源 [1]

我们是在追逐虚无缥缈的东西吗？量化无法归因的两极分化，并将剩余部分归因于标注者群体

相关实体

相关话题