研究人员开发了 CHASE,一个新颖的闭环红蓝对抗框架,旨在增强大型语言模型 (LLM) 的安全性。该系统包含一个共同进化的黑盒攻击者和一个安全对齐的防御者,并为两个组件都使用了强化学习。CHASE 在保持对良性提示零误拒绝率的同时,显著减少了成功的对抗性重写,表明这是一种更通用的 LLM 安全加固方法。 AI
影响 引入了一种更强大的方法来对 LLM 进行安全性测试和对抗性攻击加固。
排序理由 该集群包含一篇详细介绍改进 LLM 安全性新方法的学术论文。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →