研究人员开发了一种新颖的越狱技术,用于已对齐的大语言模型,通过利用同人小说子类型。该方法使用来自十二个不同 Archive of Our Own (AO3) 子类型的段落,将有害内容嵌入创意写作场景中,绕过传统的基于提示的防御。该攻击显著提高了引发有害响应的成功率,表明安全训练未能充分覆盖某些自然语言语域。此外,提出的四轮扩展 SAGA-A4 进一步增强了攻击的有效性。 AI
影响 这项研究突显了大语言模型安全训练中的新漏洞,表明当前的对齐方法可能未能充分覆盖多样化的自然语言语域,这可能会影响未来的安全开发。
排序理由 学术论文,详细介绍了一种新的大语言模型越狱方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →