研究人员开发了一种新颖的双层对抗性训练框架,旨在防御大型语言模型免受不断演变的越狱提示。该方法通过利用现有拒绝状态激活的无监督潜在方向发现来推断,从而模拟各种越狱激活。然后,该框架训练一个引导场,将这些模拟的对抗状态推入拒绝区域,同时保持模型的良性效用。该方法在三个大型语言模型和六个越狱家族中进行了测试,证明了强大的防御能力,将攻击成功率基本保持在 5% 以下,并通过在训练期间增加子空间覆盖率来提高泛化能力。 AI
影响 这项研究通过实现针对新颖和不断演变的越狱攻击的防御,可以显著提高大型语言模型的安全性。
排序理由 这是一篇详细介绍大型语言模型安全新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →