实体 HateXplain

HateXplain

PulseAugur coverage of HateXplain — every cluster mentioning HateXplain across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 2

发布 · 30天

0

90 天内 0

论文 · 30天

2

90 天内 2

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 2 条

TOOL · CL_117726 · Jun 30 · 04:00

新方法探查生成模型中的偏见并提升性能

研究人员开发了新的方法，即归因图（Attribution Graphs, AGs）和因果探查（Causal Probing），来分析生成模型内部的工作机制。这些技术旨在识别和纠正训练过程中出现的虚假关联、人口统计学偏见和不匹配的决策电路等问题。提出的框架还包括一个认知对齐分数（Cognitive Alignment Score, CAS），用于衡量模型表征与人类概念的对齐程度，一个隐私机制，以及一个偏见感知正则化器。在多个数据集上的评…
TOOL · CL_117577 · Jun 30 · 04:00

仇恨言论标注流程缺陷压制少数价值观

一项新的研究论文指出了仇恨言论数据集标注中的一个关键缺陷，特别是在冒犯性内容和仇恨性内容之间的边界问题。研究表明，标注者之间的分歧并非均匀分布，而是集中在这个边界上，这表明对什么是仇恨言论存在不同的解释。当这种分歧通过单一的多数投票标签来统一时，在这种数据上训练的模型在这些有争议的案例上的准确性会显著降低，并且常常对错误的预测表现出高度自信。研究认为，标注设计中的这种结构性问题，而非模型架构，是根本原因，并提议在标注过程的上游进行干预。