研究人员开发了一种名为MARS(Modality-Agnostic Refusal Steering,跨模态无关拒绝引导)的新方法,以增强多模态大语言模型(MLLMs)的安全性。MARS利用通常用于单模态LLM的文本拒绝指令,在无需不安全的多模态训练数据的情况下提高安全性。该方法解决了跨模态对齐问题,并在保持效用的同时,在各种基准测试中持续展示了安全性的提升。 AI
影响 这项研究通过在无需大量专业安全数据的情况下实现对齐,有望带来更安全、更强大的多模态AI系统。
排序理由 该集群包含一篇详细介绍AI安全新方法的论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →