English(EN) Steering Beyond the Support: Adversarial Training on Unsupervised Jailbroken Activation Simulation

新的对抗性训练可防御大型语言模型免受不断演变的越狱攻击

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 04:00

研究人员开发了一种新颖的双层对抗性训练框架，旨在防御大型语言模型免受不断演变的越狱提示。该方法通过利用现有拒绝状态激活的无监督潜在方向发现来推断，从而模拟各种越狱激活。然后，该框架训练一个引导场，将这些模拟的对抗状态推入拒绝区域，同时保持模型的良性效用。该方法在三个大型语言模型和六个越狱家族中进行了测试，证明了强大的防御能力，将攻击成功率基本保持在 5% 以下，并通过在训练期间增加子空间覆盖率来提高泛化能力。 AI

影响这项研究通过实现针对新颖和不断演变的越狱攻击的防御，可以显著提高大型语言模型的安全性。

排序理由这是一篇详细介绍大型语言模型安全新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Luoyu Chen, Weiqi Wang, Zhiyi Tian, Chenhan Zhang, Feng Wu, Jianhuan Huang, Ahmed Asiri, Shui Yu · 2026-05-26 04:00

超越支持的转向：无监督越狱激活模拟上的对抗性训练

arXiv:2605.24535v1 Announce Type: cross Abstract: Jailbreak prompts can trigger harmful completions on aligned LLMs, In accordance, safety steering has been proposed: test-time activation interventions that steer jailbreak activations to trigger refusal while preserving benign ut…

报道来源 [1]

超越支持的转向：无监督越狱激活模拟上的对抗性训练

相关实体

相关话题