English(EN) Learning to Attack and Defend: Adaptive Red Teaming of Language Models via GRPO

新框架增强语言模型的自适应红队测试

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-08 16:21

研究人员开发了 AdvGRPO，一个旨在增强语言模型自适应红队测试的新型联合训练框架。该方法通过采用密集多通道奖励和解耦优势归一化来解决 GRPO 在攻击者-防御者优化中的不稳定性问题。训练过程遵循课程学习，从单轮攻击开始，然后过渡到多轮场景，最后才启动联合训练，最终产生更有效的攻击和更鲁棒的防御者。 AI

影响通过模拟对抗性攻击和防御，引入了一种更稳定有效的测试和改进 AI 安全的方法。

排序理由该集群包含一篇详细介绍 AI 安全研究新方法的学术论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Blake Bullwinkel, Eugenia Kim, Amanda Minnich, Mark Russinovich · 2026-06-09 04:00

学习攻击与防御：通过 GRPO 实现语言模型的自适应红队测试

arXiv:2606.09701v1 Announce Type: cross Abstract: AI red teaming must continually adapt to evolving attackers and defenders. Reinforcement learning offers a promising approach to discovering novel attacks, and co-training methods can produce more robust defenders in tandem. Recen…
arXiv cs.AI TIER_1 English(EN) · Mark Russinovich · 2026-06-08 16:21

学习攻击与防御：通过 GRPO 实现语言模型的自适应红队测试

AI red teaming must continually adapt to evolving attackers and defenders. Reinforcement learning offers a promising approach to discovering novel attacks, and co-training methods can produce more robust defenders in tandem. Recent works have demonstrated the efficacy of attacker…

报道来源 [2]

学习攻击与防御：通过 GRPO 实现语言模型的自适应红队测试

学习攻击与防御：通过 GRPO 实现语言模型的自适应红队测试

相关实体

相关话题