研究人员开发了一种名为STEER(Safety Targeted Embedding Exploit via Refinement,通过精炼实现安全目标嵌入式漏洞利用)的新攻击方法,该方法利用了大型语言模型(LLMs)安全训练中的漏洞。该方法专门针对主要以英语训练的模型,表明它们的安全机制在低资源语言和混合语言输入方面泛化能力不强。STEER在开源模型上实现了很高的攻击成功率,并显示出对GPT-4o-mini等模型的迁移能力,凸显了多语言安全对齐方面存在的重大差距。 AI
影响 强调了在LLM中进行更广泛的多语言安全训练的必要性,以防止被利用。
排序理由 该集群包含一篇详细介绍新研究发现和方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- AdvBench
- arXiv
- GPT-4o mini
- Greedy Coordinate Gradient
- Hugging Face
- JailbreakBench
- Joshua Adrian Cahyono
- STEER
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →