PulseAugur
实时 09:19:03
实体 AdvGRPO

AdvGRPO

PulseAugur coverage of AdvGRPO — every cluster mentioning AdvGRPO across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_79486 ·

    新框架增强语言模型的自适应红队测试

    研究人员开发了 AdvGRPO,一个旨在增强语言模型自适应红队测试的新型联合训练框架。该方法通过采用密集多通道奖励和解耦优势归一化来解决 GRPO 在攻击者-防御者优化中的不稳定性问题。训练过程遵循课程学习,从单轮攻击开始,然后过渡到多轮场景,最后才启动联合训练,最终产生更有效的攻击和更鲁棒的防御者。