新的REINS方法在无需重新训练的情况下引导视频扩散模型实现安全

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-17 04:00

研究人员开发了一种名为REINS（REpresentation-space INference-time Safety steering，表示空间推理时安全引导）的新型无需训练的方法，用于对齐视频扩散模型并防止生成不安全内容。该技术通过在推理时引导模型的内部表示来实现，而无需昂贵的安全微调。REINS识别模型隐藏状态中区分安全与不安全内容的特定方向，并通过将此方向添加到中间层，以最小的计算开销将有害生成重定向到安全替代方案。该方法已在多个视频扩散模型和规模上进行了评估，证明了其在视频生成安全文献中的广泛适用性。 AI

影响提供了一种计算高效、无需训练的方法来缓解视频扩散模型中有害内容的生成。

排序理由该集群包含一篇详细介绍AI安全新研究方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Rohit Kundu, Arindam Dutta, Sarosij Bose, Athula Balachandran, Amit K. Roy-Chowdhury · 2026-06-17 04:00

Pulling The REINS: Training-Free Safety Alignment of Video Diffusion Models via Representation Steering

arXiv:2606.17257v1 Announce Type: cross Abstract: Open-weight video diffusion models can generate photorealistic unsafe content, from violence to misinformation, yet existing defenses either require expensive safety fine-tuning that degrades general capability, or apply external …

报道来源 [1]

Pulling The REINS: Training-Free Safety Alignment of Video Diffusion Models via Representation Steering

相关实体

相关话题