实体 Jailbreak Attacks

Jailbreak Attacks

PulseAugur coverage of Jailbreak Attacks — every cluster mentioning Jailbreak Attacks across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 4

发布 · 30天

90 天内 0

论文 · 30天

90 天内 4

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 4 条

TOOL · CL_135330 · Jul 10 · 04:00

新框架使用计算图诊断 LLM 越狱漏洞

研究人员开发了一个新框架，用于理解大型语言模型 (LLM) 如何容易受到对抗性提示和越狱攻击。该方法使用成对的内部计算图，将提示特定的推理表示为潜在特征之间的结构化因果交互。通过对干净提示和受攻击提示的这些图进行对齐，研究揭示了攻击会系统性地改变模型的内部推理，例如抑制安全功能或重新路由计算路径。该框架允许对模型故障进行因果诊断，并在实验中表明，这些图中的结构偏差与不安全行为密切相关，从而能够进行有针对性的干预以提高模型鲁棒性。
RESEARCH · CL_117828 · Jun 30 · 04:00

新研究探索多模态和稀疏自编码器方法以对抗大型语言模型越狱

研究人员正在开发新的方法来对抗对语音语言模型（SLM）的越狱攻击。一种方法 JAMA 使用联合多模态优化框架同时攻击音频和文本模态，证明比单模态攻击更有效。另一项研究提出使用稀疏自编码器（SAE）进行大型语言模型越狱缓解，证明在稀疏 SAE 特征空间中进行引导比在密集激活空间中进行防御具有优势。
TOOL · CL_41189 · May 19 · 04:01

新的安全措施使用草稿模型检测LLM越狱

研究人员开发了一种新的安全措施，以提高大型语言模型（LLM）免受越狱攻击的安全性。该系统利用了从大型模型到小型“草稿”模型的攻击可转移性。通过使用这些草稿模型生成推测性响应，该安全措施可以在主LLM处理提示之前更有效地预测提示的安全性，从而减少误报并提供比模型后检查更有效的替代方案。
RESEARCH · CL_15872 · May 5 · 04:00

新研究通过动态评估和鲁棒防御策略应对LLM越狱问题

多篇研究论文探讨了增强大型语言模型（LLM）安全性、使其免受越狱攻击的先进技术。这些研究引入了新的框架和方法，用于评估和防御旨在诱导有害输出的对抗性提示。研究重点在于开发更全面的评估指标、自适应攻击生成策略以及能够识别模型行为中细微模式的鲁棒检测机制。

新框架使用计算图诊断 LLM 越狱漏洞

新研究探索多模态和稀疏自编码器方法以对抗大型语言模型越狱

新的安全措施使用草稿模型检测LLM越狱

新研究通过动态评估和鲁棒防御策略应对LLM越狱问题