研究人员已将自回归一致性确定为大型语言模型安全对齐脆弱性的关键因素。这种现象,即下一个词元预测会强化现有的响应轨迹,可能导致对齐更新集中在早期词元上。该论文提出,这种机制解释了浅层安全对齐,并且可能被在任意点引入有害延续的攻击所利用。为了解决这个问题,作者们引入了对抗性安全对齐,这是一个旨在打破整个输出轨迹中有害自回归一致性的框架。 AI
影响 识别了一个可能破坏大型语言模型安全的机制,可能导致新的对齐技术和攻击向量。
排序理由 学术论文,详细介绍了大型语言模型安全对齐的新机制和拟议解决方案。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →