PulseAugur
实时 16:42:51
实体 Chinese Implicit Toxicity Attack

Chinese Implicit Toxicity Attack

PulseAugur coverage of Chinese Implicit Toxicity Attack — every cluster mentioning Chinese Implicit Toxicity Attack across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_43991 ·

    新的中文毒性攻击框架挑战大语言模型防御

    研究人员开发了一个名为CITA的新框架,用于生成更复杂的中文毒性攻击,以对抗大语言模型。该框架增强了隐式毒性并混淆措辞,使检测更具挑战性。在测试中,现有的毒性检测器显示出显著的失败率,平均攻击成功率为69.48%。生成的毒性数据还被用于微调一个防御模型,提高了其对这些高级攻击的鲁棒性。