PulseAugur
实时 17:21:27
English(EN) Steering Beyond the Support: Adversarial Training on Unsupervised Jailbroken Activation Simulation

新的对抗性训练可防御大型语言模型免受不断演变的越狱攻击

研究人员开发了一种新颖的双层对抗性训练框架,旨在防御大型语言模型免受不断演变的越狱提示。该方法通过利用现有拒绝状态激活的无监督潜在方向发现来推断,从而模拟各种越狱激活。然后,该框架训练一个引导场,将这些模拟的对抗状态推入拒绝区域,同时保持模型的良性效用。该方法在三个大型语言模型和六个越狱家族中进行了测试,证明了强大的防御能力,将攻击成功率基本保持在 5% 以下,并通过在训练期间增加子空间覆盖率来提高泛化能力。 AI

影响 这项研究通过实现针对新颖和不断演变的越狱攻击的防御,可以显著提高大型语言模型的安全性。

排序理由 这是一篇详细介绍大型语言模型安全新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的对抗性训练可防御大型语言模型免受不断演变的越狱攻击

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Luoyu Chen, Weiqi Wang, Zhiyi Tian, Chenhan Zhang, Feng Wu, Jianhuan Huang, Ahmed Asiri, Shui Yu ·

    超越支持的转向:无监督越狱激活模拟上的对抗性训练

    arXiv:2605.24535v1 Announce Type: cross Abstract: Jailbreak prompts can trigger harmful completions on aligned LLMs, In accordance, safety steering has been proposed: test-time activation interventions that steer jailbreak activations to trigger refusal while preserving benign ut…