PulseAugur
实时 12:46:32
实体 Persona Attack

Persona Attack

PulseAugur coverage of Persona Attack — every cluster mentioning Persona Attack across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_65457 ·

    新的大语言模型越狱攻击和防御研究论文涌现

    研究人员开发了新的方法来解决大语言模型(LLMs)中的漏洞。一种名为“Persona Attack”的方法利用对话记忆绕过安全协议,在某些配置下成功率高达95%。作为回应,引入了一个名为THRD的框架,该框架通过分析时间风险累积,使用一种无需训练的方法来检测和缓解多轮越狱攻击,将攻击成功率降低至0.2%,同时对模型效用的影响最小。此外,一项研究对LLMs进行了密码分析基准测试,揭示了它们在安全环境中的潜力和局限性,并引发了对其易受某些攻击的担忧。