PulseAugur
实时 10:50:08
English(EN) CHASE: Adversarial Red-Blue Teaming for Improving LLM Safety using Reinforcement Learning

新的 CHASE 框架通过对抗性强化学习提升 LLM 安全性

研究人员开发了 CHASE,一个新颖的闭环红蓝对抗框架,旨在增强大型语言模型 (LLM) 的安全性。该系统包含一个共同进化的黑盒攻击者和一个安全对齐的防御者,并为两个组件都使用了强化学习。CHASE 在保持对良性提示零误拒绝率的同时,显著减少了成功的对抗性重写,表明这是一种更通用的 LLM 安全加固方法。 AI

影响 引入了一种更强大的方法来对 LLM 进行安全性测试和对抗性攻击加固。

排序理由 该集群包含一篇详细介绍改进 LLM 安全性新方法的学术论文。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Rahul Markasserithodi, Aditya Joshi, Yuekang Li, Ishmanbir Singh, Chris Yoo, Alan Niu ·

    CHASE:利用强化学习改进大型语言模型安全性的对抗性红蓝对抗

    arXiv:2606.05523v1 Announce Type: new Abstract: Despite advances in safety alignment, prompt-rewriting attacks such as persona modulation, fictional framing and persuasion-based reformulation, can bypass safety filters even on frontier models. Existing defenses either rely on non…