研究人员开发了一种名为REINS(REpresentation-space INference-time Safety steering,表示空间推理时安全引导)的新型无需训练的方法,用于对齐视频扩散模型并防止生成不安全内容。该技术通过在推理时引导模型的内部表示来实现,而无需昂贵的安全微调。REINS识别模型隐藏状态中区分安全与不安全内容的特定方向,并通过将此方向添加到中间层,以最小的计算开销将有害生成重定向到安全替代方案。该方法已在多个视频扩散模型和规模上进行了评估,证明了其在视频生成安全文献中的广泛适用性。 AI
影响 提供了一种计算高效、无需训练的方法来缓解视频扩散模型中有害内容的生成。
排序理由 该集群包含一篇详细介绍AI安全新研究方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →