研究人员开发了SingGuard,一个新颖的策略自适应防护栏系统,旨在增强视觉语言模型(VLMs)的安全性。与具有固定规则的现有防护栏不同,SingGuard通过将安全策略视为运行时输入来动态适应不断变化的策略,从而能够根据特定的自然语言规则评估内容。该系统通过强化学习进行了优化,提供从直接判断到详细的策略推理等灵活的推理速度。为了评估其有效性,创建了一个新的基准测试SingGuard-Bench,其中包含超过56,000个示例,涵盖了包括复杂的跨模态组合在内的各种风险。SingGuard在多个基准测试家族中表现出最先进的性能,并在运行时更新策略时显示出提高的策略遵循准确性。 AI
影响 增强了视觉语言模型的安全性和适应性,可能使其在敏感应用中得到更广泛、更安全的部署。
排序理由 该集群描述了一篇关于新型AI安全系统和基准测试的最新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →