PulseAugur
实时 04:41:26
English(EN) Are we chasing ghosts? Quantifying unattributable polarization, and attributing the rest to annotator groups

新指标量化NLP数据中的两极分化,并将其与标注者人口统计学特征联系起来

研究人员开发了一种新指标和一个开源Python库,以更好地量化和归因主观NLP数据集中的两极分化。现有方法在处理固有的两极分化和抵消效应方面存在困难,但新方法识别出归因于特定标注者群体的两极分化的统计学显著性。将其应用于四个数据集后发现,性别和种族持续解释了两极分化模式,并且随着群体差异的扩大,差异会加剧。 AI

影响 为评估主观NLP任务提供了一种更稳健的方法,有可能提高在此类数据上训练的模型的可靠性。

排序理由 该集群包含一篇学术论文,详细介绍了用于分析NLP数据集中两极分化新指标和开源实现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Dimitris Tsirmpas, John Pavlopoulos ·

    我们是在追逐虚无缥缈的东西吗?量化无法归因的两极分化,并将剩余部分归因于标注者群体

    arXiv:2602.06055v2 Announce Type: replace Abstract: Standard agreement metrics often fail to capture systematic differences in opinion between minority and majority-group annotators, jeopardizing tasks such as hate speech and toxicity detection. Polarization has recently been pro…