AI代理能够发现超越现有方法的新型对抗性攻击算法,用于攻击大型语言模型。一项研究表明,这些AI发现的攻击在针对经过安全防护的GPT模型时,在特定查询上取得了高达80%的成功率,而在针对Meta的对抗性鲁棒模型时成功率达到100%。另一篇论文发现,Google的Gemma模型的安全对齐在不同代际之间并非持续改进,Gemma 3相比其前代和后代模型,攻击成功率显著增加。 AI
影响 凸显了AI安全与安全领域不断升级的军备竞赛,需要超越静态基准的适应性评估方法。
排序理由 两篇研究论文详细介绍了发现大语言模型对抗性攻击的新方法,并分析了大语言模型代际间不单调的安全对齐情况。
在 arXiv cs.NE (Neural & Evolutionary) 阅读 →
- Gemma
- Gemma 2
- Gemma 3
- Gemma 4
- Claude Code
- Claudini
- Codex
- GPT-OSS-Safeguard-20B
- Meta
- Meta-SecAlign-70B
- OpenAI
AI 生成摘要 · Google Gemini · 来自 4 个来源。 我们如何撰写摘要 →