实体 Persona Attack

Persona Attack

PulseAugur coverage of Persona Attack — every cluster mentioning Persona Attack across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_65457 · Jun 2 · 04:00

新的大语言模型越狱攻击和防御研究论文涌现

研究人员开发了新的方法来解决大语言模型（LLMs）中的漏洞。一种名为“Persona Attack”的方法利用对话记忆绕过安全协议，在某些配置下成功率高达95%。作为回应，引入了一个名为THRD的框架，该框架通过分析时间风险累积，使用一种无需训练的方法来检测和缓解多轮越狱攻击，将攻击成功率降低至0.2%，同时对模型效用的影响最小。此外，一项研究对LLMs进行了密码分析基准测试，揭示了它们在安全环境中的潜力和局限性，并引发了对其易受某些攻击的担忧。