PulseAugur
实时 10:32:16
English(EN) Learning to Attack and Defend: Adaptive Red Teaming of Language Models via GRPO

新框架增强语言模型的自适应红队测试

研究人员开发了 AdvGRPO,一个旨在增强语言模型自适应红队测试的新型联合训练框架。该方法通过采用密集多通道奖励和解耦优势归一化来解决 GRPO 在攻击者-防御者优化中的不稳定性问题。训练过程遵循课程学习,从单轮攻击开始,然后过渡到多轮场景,最后才启动联合训练,最终产生更有效的攻击和更鲁棒的防御者。 AI

影响 通过模拟对抗性攻击和防御,引入了一种更稳定有效的测试和改进 AI 安全的方法。

排序理由 该集群包含一篇详细介绍 AI 安全研究新方法的学术论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Blake Bullwinkel, Eugenia Kim, Amanda Minnich, Mark Russinovich ·

    学习攻击与防御:通过 GRPO 实现语言模型的自适应红队测试

    arXiv:2606.09701v1 Announce Type: cross Abstract: AI red teaming must continually adapt to evolving attackers and defenders. Reinforcement learning offers a promising approach to discovering novel attacks, and co-training methods can produce more robust defenders in tandem. Recen…

  2. arXiv cs.AI TIER_1 English(EN) · Mark Russinovich ·

    学习攻击与防御:通过 GRPO 实现语言模型的自适应红队测试

    AI red teaming must continually adapt to evolving attackers and defenders. Reinforcement learning offers a promising approach to discovering novel attacks, and co-training methods can produce more robust defenders in tandem. Recent works have demonstrated the efficacy of attacker…