PulseAugur
实时 12:32:11
实体 Subrat Kishore Dutta

Subrat Kishore Dutta

PulseAugur coverage of Subrat Kishore Dutta — every cluster mentioning Subrat Kishore Dutta across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_66106 ·

    研究人员针对RLHF模型制造后门攻击

    研究人员开发了一个名为GREAT的新框架,该框架可以在人类反馈强化学习(RLHF)模型中创建可泛化的后门攻击。该方法合成了情感感知的触发器,专门针对用户带有愤怒提示时的有害响应生成。该框架利用模型潜在嵌入空间中的触发器识别管道,以及一个使用GPT-4精心策划的包含5000多个愤怒触发器的数据集。