PulseAugur
实时 09:24:51
实体 Safety Paradox

Safety Paradox

PulseAugur coverage of Safety Paradox — every cluster mentioning Safety Paradox across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_74205 ·

    新的“后验攻击”利用了大型语言模型的安全意识

    一篇新研究论文介绍了一种名为“后验攻击”的方法,该方法利用了大型语言模型安全对齐中的一个悖论。该攻击利用模型自身安全意识绕过安全护栏,诱导其生成通常会被标记的有害内容。这种漏洞在安全判断能力更强的模型中更为明显,表明当前的对齐技术可能需要改进。