PulseAugur
实时 02:38:28
English(EN) SafeDiffusion-R1: Online Reward Steering for Safe Diffusion Post-Training

SafeDiffusion-R1 通过在线奖励引导增强图像模型安全性

研究人员开发了 SafeDiffusion-R1,一个用于增强扩散模型安全性的新框架。该方法利用基于群体相对策略优化(GRPO)的在线强化学习方法,引导模型避免生成不安全内容。通过利用 CLIP 嵌入,它避免了昂贵的配对数据或专门的奖励模型的需求,显著减少了不当内容的生成,同时保持或提高了整体图像质量。 AI

影响 引入了一种新颖的方法,无需广泛的配对数据集即可减少扩散模型中不安全内容的生成。

排序理由 发表了一篇详细介绍改进人工智能模型安全性的新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

SafeDiffusion-R1 通过在线奖励引导增强图像模型安全性

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Karthik Nandakumar ·

    SafeDiffusion-R1: Online Reward Steering for Safe Diffusion Post-Training

    Diffusion models have been widely studied for removing unsafe content learned during pre-training. Existing methods require expensive supervised data, either unsafe-text paired with safe-image groundtruth or negative/positive image pairs, making them impractical to scale. Further…