English(EN) Disentangling Intent from Role: Adversarial Self-Play for Persona-Invariant Safety Alignment

新AI对齐框架应对基于角色的越狱攻击

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-06 04:00

研究人员开发了一个名为“角色无关对齐”（Persona-Invariant Alignment, PIA）的新框架，以增强大型语言模型（LLM）抵御基于角色的越狱攻击的安全性。PIA采用对抗性自我博弈方法，其中“角色谱系演化”（Persona Lineage Evolution, PLE）用于攻击优化，而“角色无关一致性学习”（Persona-Invariant Consistency Learning, PICL）用于防御。PICL旨在将安全决策与角色上下文在结构上解耦，使模型即使在受到对抗性角色操纵时也能保持安全行为。 AI

影响这项研究可能带来更强大的LLM安全措施，降低基于角色的越狱攻击的有效性。

排序理由这是一篇详细介绍LLM安全对齐新框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Jiajia Li, Xiaoyu Wen, Zhongtian Ma, Shuyue Hu, Qiaosheng Zhang, Zhen Wang · 2026-05-06 04:00

Disentangling Intent from Role: Adversarial Self-Play for Persona-Invariant Safety Alignment

arXiv:2605.01899v1 Announce Type: new Abstract: The growing capabilities of large language models (LLMs) have driven their widespread deployment across diverse domains, even in potentially high-risk scenarios. Despite advances in safety alignment techniques, current models remain…

报道来源 [1]

Disentangling Intent from Role: Adversarial Self-Play for Persona-Invariant Safety Alignment

相关实体

相关话题