English(EN) CHASE: Adversarial Red-Blue Teaming for Improving LLM Safety using Reinforcement Learning

新的 CHASE 框架通过对抗性强化学习提升 LLM 安全性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-05 04:00

研究人员开发了 CHASE，一个新颖的闭环红蓝对抗框架，旨在增强大型语言模型 (LLM) 的安全性。该系统包含一个共同进化的黑盒攻击者和一个安全对齐的防御者，并为两个组件都使用了强化学习。CHASE 在保持对良性提示零误拒绝率的同时，显著减少了成功的对抗性重写，表明这是一种更通用的 LLM 安全加固方法。 AI

影响引入了一种更强大的方法来对 LLM 进行安全性测试和对抗性攻击加固。

排序理由该集群包含一篇详细介绍改进 LLM 安全性新方法的学术论文。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Rahul Markasserithodi, Aditya Joshi, Yuekang Li, Ishmanbir Singh, Chris Yoo, Alan Niu · 2026-06-05 04:00

CHASE：利用强化学习改进大型语言模型安全性的对抗性红蓝对抗

arXiv:2606.05523v1 Announce Type: new Abstract: Despite advances in safety alignment, prompt-rewriting attacks such as persona modulation, fictional framing and persuasion-based reformulation, can bypass safety filters even on frontier models. Existing defenses either rely on non…

报道来源 [1]

CHASE：利用强化学习改进大型语言模型安全性的对抗性红蓝对抗

相关实体

相关话题