PulseAugur
实时 23:43:58
实体 Safety classifiers

Safety classifiers

PulseAugur coverage of Safety classifiers — every cluster mentioning Safety classifiers across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_43987 ·

    新的攻击方法侵犯了AI安全分类器的隐私

    研究人员开发了一种新的方法来攻击生成式AI系统中使用的安全分类器的隐私。这些分类器在处理诸如自残讨论等敏感数据时被训练,容易受到成员推断攻击(MIA)。新技术针对分类器置信度较低的样本,揭示了模型可能会记住模糊的训练数据。该方法成功恢复了19%的用户痛苦对话,误报率为5%,显著优于现有的MIA方法。