PulseAugur
实时 11:13:07
English(EN) Off-Distribution Voices: Fanfiction Subgenres as Universal Vernacular Jailbreaks for Aligned LLMs

同人小说子类型被用作已对齐大语言模型的通用越狱方式

研究人员开发了一种新颖的越狱技术,用于已对齐的大语言模型,通过利用同人小说子类型。该方法使用来自十二个不同 Archive of Our Own (AO3) 子类型的段落,将有害内容嵌入创意写作场景中,绕过传统的基于提示的防御。该攻击显著提高了引发有害响应的成功率,表明安全训练未能充分覆盖某些自然语言语域。此外,提出的四轮扩展 SAGA-A4 进一步增强了攻击的有效性。 AI

影响 这项研究突显了大语言模型安全训练中的新漏洞,表明当前的对齐方法可能未能充分覆盖多样化的自然语言语域,这可能会影响未来的安全开发。

排序理由 学术论文,详细介绍了一种新的大语言模型越狱方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Zhongze Luo, Ruihe Shi, Zhenshuai Yin, Haoyue Liu, Weixuan Wan, Xiaoying Tang ·

    Off-Distribution Voices: Fanfiction Subgenres as Universal Vernacular Jailbreaks for Aligned LLMs

    arXiv:2606.04483v1 Announce Type: new Abstract: Existing jailbreaks against aligned LLMs are discrete artifacts whose surface forms are easy to fingerprint and patch. We argue that the real failure mode is not any specific prompt, but an entire register of natural human writing t…