实体 toxicity classifiers

toxicity classifiers

PulseAugur coverage of toxicity classifiers — every cluster mentioning toxicity classifiers across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

安全 1
论文 1

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_51305 · May 26 · 04:00

新方法针对大型语言模型生成内容的毒性漏洞

研究人员开发了一种使用机制可解释性来识别和抑制毒性分类器中易受攻击组件的新方法。这些分类器通常在人类生成文本上进行训练，难以处理大型语言模型生成的内容，并且容易受到对抗性攻击。通过精确定位对不同人口群体漏洞负责的特定模型头，该研究旨在提高毒性检测系统的公平性和鲁棒性。

新方法针对大型语言模型生成内容的毒性漏洞