研究人员开发了一个名为GREAT的新框架,该框架可以在人类反馈强化学习(RLHF)模型中创建可泛化的后门攻击。该方法合成了情感感知的触发器,专门针对用户带有愤怒提示时的有害响应生成。该框架利用模型潜在嵌入空间中的触发器识别管道,以及一个使用GPT-4精心策划的包含5000多个愤怒触发器的数据集。 AI
影响 凸显了RLHF系统潜在的漏洞,需要改进安全和防御机制。
排序理由 学术论文,详细介绍了针对RLHF模型进行后门攻击的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →