PulseAugur
实时 06:08:57
实体 D-Judge

D-Judge

PulseAugur coverage of D-Judge — every cluster mentioning D-Judge across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_68303 ·

    新的D-Judge防御通过输出重写来破坏LLM越狱

    研究人员开发了一种名为D-Judge的新防御机制,以对抗大型语言模型的多轮越狱攻击。这些攻击利用辅助裁判模型提供的反馈,通过迭代优化提示以实现有害目标。D-Judge通过在受害者LLM的响应被攻击者的裁判评估之前对其进行重写来工作,从而在不改变响应含义的情况下使反馈信号失配。这种策略会扰乱提示优化过程,从而在HarmBench等基准测试中提高安全性,同时保持在良性任务上的性能。