实体 Indirect Harm Optimization

Indirect Harm Optimization

PulseAugur coverage of Indirect Harm Optimization — every cluster mentioning Indirect Harm Optimization across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

安全 1
论文 1

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_68166 · Jun 2 · 13:39

新的IHO攻击方法旨在标准化LLM越狱评估

研究人员开发了一种名为间接伤害优化（IHO）的新方法来评估大型语言模型（LLM）的对抗鲁棒性。这种黑盒攻击技术旨在高效且可跨不同模型和行为进行迁移，填补了LLM越狱评估标准化的空白。据报道，IHO的性能优于现有方法，即使面对分层防御也能奏效，并旨在为评估LLM安全性提供可靠基准。

新的IHO攻击方法旨在标准化LLM越狱评估