English(EN) GREAT: Generalizable Backdoor Attacks in RLHF via Emotion-Aware Trigger Synthesis

研究人员针对RLHF模型制造后门攻击

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员开发了一个名为GREAT的新框架，该框架可以在人类反馈强化学习（RLHF）模型中创建可泛化的后门攻击。该方法合成了情感感知的触发器，专门针对用户带有愤怒提示时的有害响应生成。该框架利用模型潜在嵌入空间中的触发器识别管道，以及一个使用GPT-4精心策划的包含5000多个愤怒触发器的数据集。 AI

影响凸显了RLHF系统潜在的漏洞，需要改进安全和防御机制。

排序理由学术论文，详细介绍了针对RLHF模型进行后门攻击的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Subrat Kishore Dutta, Yuelin Xu, Piyush Pant, Xiao Zhang · 2026-06-02 04:00

GREAT: Generalizable Backdoor Attacks in RLHF via Emotion-Aware Trigger Synthesis

arXiv:2510.09260v2 Announce Type: replace-cross Abstract: Recent work has shown that RLHF is highly susceptible to backdoor attacks. However, existing methods often rely on rare tokens or fixed triggers, limiting their impact in realistic scenarios. In this work, we develop GREAT…

报道来源 [1]

GREAT: Generalizable Backdoor Attacks in RLHF via Emotion-Aware Trigger Synthesis

相关实体

相关话题