实体 Safety classifiers

Safety classifiers

PulseAugur coverage of Safety classifiers — every cluster mentioning Safety classifiers across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

安全 1
论文 1

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_43987 · May 21 · 12:05

新的攻击方法侵犯了AI安全分类器的隐私

研究人员开发了一种新的方法来攻击生成式AI系统中使用的安全分类器的隐私。这些分类器在处理诸如自残讨论等敏感数据时被训练，容易受到成员推断攻击（MIA）。新技术针对分类器置信度较低的样本，揭示了模型可能会记住模糊的训练数据。该方法成功恢复了19%的用户痛苦对话，误报率为5%，显著优于现有的MIA方法。

新的攻击方法侵犯了AI安全分类器的隐私