实体 AutoDAN

AutoDAN

PulseAugur coverage of AutoDAN — every cluster mentioning AutoDAN across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_58559 · May 28 · 14:53

新研究揭示了 LLM 和 LALM 的越狱漏洞不断升级

三篇新研究论文探讨了大型语言模型 (LLM) 和大型音频语言模型 (LALM) 的漏洞和防御。第一篇论文详细介绍了音频越狱攻击和防御的分类法，强调目前的防御措施通常会牺牲可用性来换取鲁棒性。第二篇论文全面回顾了 LLM 的漏洞，对攻击和防御进行了分类，并指出了在弹性对齐和自动检测等领域的研究空白。第三篇论文介绍了“越狱规模定律”，证明了对抗性提示如何将攻击成功率从多项式增长转变为指数增长，这种现象在各种 LLM 和攻击方法中都有观察到。