English(EN) SafeDiffusion-R1: Online Reward Steering for Safe Diffusion Post-Training

SafeDiffusion-R1 通过在线奖励引导增强图像模型安全性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-18 17:50

研究人员开发了 SafeDiffusion-R1，一个用于增强扩散模型安全性的新框架。该方法利用基于群体相对策略优化（GRPO）的在线强化学习方法，引导模型避免生成不安全内容。通过利用 CLIP 嵌入，它避免了昂贵的配对数据或专门的奖励模型的需求，显著减少了不当内容的生成，同时保持或提高了整体图像质量。 AI

影响引入了一种新颖的方法，无需广泛的配对数据集即可减少扩散模型中不安全内容的生成。

排序理由发表了一篇详细介绍改进人工智能模型安全性的新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Karthik Nandakumar · 2026-05-18 17:50

SafeDiffusion-R1: Online Reward Steering for Safe Diffusion Post-Training

Diffusion models have been widely studied for removing unsafe content learned during pre-training. Existing methods require expensive supervised data, either unsafe-text paired with safe-image groundtruth or negative/positive image pairs, making them impractical to scale. Further…

报道来源 [1]

SafeDiffusion-R1: Online Reward Steering for Safe Diffusion Post-Training

相关实体

相关话题