研究人员开发了 AdvGRPO,一个旨在增强语言模型自适应红队测试的新型联合训练框架。该方法通过采用密集多通道奖励和解耦优势归一化来解决 GRPO 在攻击者-防御者优化中的不稳定性问题。训练过程遵循课程学习,从单轮攻击开始,然后过渡到多轮场景,最后才启动联合训练,最终产生更有效的攻击和更鲁棒的防御者。 AI
影响 通过模拟对抗性攻击和防御,引入了一种更稳定有效的测试和改进 AI 安全的方法。
排序理由 该集群包含一篇详细介绍 AI 安全研究新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →