English(EN) When Autoregressive Consistency Hurts Safety Alignment

新论文将自回归一致性与大型语言模型安全对齐失败联系起来

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-04 04:00

研究人员已将自回归一致性确定为大型语言模型安全对齐脆弱性的关键因素。这种现象，即下一个词元预测会强化现有的响应轨迹，可能导致对齐更新集中在早期词元上。该论文提出，这种机制解释了浅层安全对齐，并且可能被在任意点引入有害延续的攻击所利用。为了解决这个问题，作者们引入了对抗性安全对齐，这是一个旨在打破整个输出轨迹中有害自回归一致性的框架。 AI

影响识别了一个可能破坏大型语言模型安全的机制，可能导致新的对齐技术和攻击向量。

排序理由学术论文，详细介绍了大型语言模型安全对齐的新机制和拟议解决方案。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Bochen Lyu, Yiyang Jia, Xiaohao Cai, Zhanxing Zhu · 2026-06-04 04:00

When Autoregressive Consistency Hurts Safety Alignment

arXiv:2606.04168v1 Announce Type: new Abstract: Safety alignment in large language models (LLMs) is fragile in part because it is often shallow: fine-tuning mainly reshapes the model's behavior near the first few output tokens. We argue that this phenomenon can be understood thro…

报道来源 [1]

When Autoregressive Consistency Hurts Safety Alignment

相关实体

相关话题