实体
Jailbreak Attacks
Jailbreak Attacks
PulseAugur coverage of Jailbreak Attacks — every cluster mentioning Jailbreak Attacks across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
New safeguard uses draft models to detect LLM jailbreaks
Researchers have developed a new safeguard to improve the safety of large language models (LLMs) against jailbreak attacks. This system leverages the transferability of attacks from larger models to smaller "draft" mode…
-
新研究通过动态评估和鲁棒防御策略应对LLM越狱问题
多篇研究论文探讨了增强大型语言模型(LLM)安全性、使其免受越狱攻击的先进技术。这些研究引入了新的框架和方法,用于评估和防御旨在诱导有害输出的对抗性提示。研究重点在于开发更全面的评估指标、自适应攻击生成策略以及能够识别模型行为中细微模式的鲁棒检测机制。