一项新的研究论文指出了仇恨言论数据集标注中的一个关键缺陷,特别是在冒犯性内容和仇恨性内容之间的边界问题。研究表明,标注者之间的分歧并非均匀分布,而是集中在这个边界上,这表明对什么是仇恨言论存在不同的解释。当这种分歧通过单一的多数投票标签来统一时,在这种数据上训练的模型在这些有争议的案例上的准确性会显著降低,并且常常对错误的预测表现出高度自信。研究认为,标注设计中的这种结构性问题,而非模型架构,是根本原因,并提议在标注过程的上游进行干预。 AI
影响 强调了数据标注中的一个关键缺陷,该缺陷影响了敏感内容的模型准确性和评估。
排序理由 在 arXiv 上发表的研究论文,详细介绍了仇恨言论标注问题。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →