实体
Shields
Shields
PulseAugur coverage of Shields — every cluster mentioning Shields across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
AI防御对抗性攻击在适应性攻击下显示出局限性
本文探讨了针对AI模型的各种对抗性攻击的防御方法,重点关注对抗性训练、梯度掩码和防御蒸馏。虽然这些方法最初在保护模型免受细微扰动方面显示出希望,但作者证明了攻击者可以调整他们的策略来克服这些防御。文章强调了攻击者和防御者之间持续的对抗性博弈,并暗示一个真正牢不可破的模型可能难以实现,从而提出了一个问题:目标应该是避免自欺欺人,而不是实现无懈可击。
-
LLM驱动的SHIELDS通过迭代修复实现操作系统加固自动化
研究人员开发了SHIELDS,一个利用大型语言模型(LLMs)实现操作系统加固自动化的新型多智能体系统。与具有静态修复的传统工具不同,SHIELDS根据系统反馈和验证扫描迭代地提出和改进安全配置。在各种LLMs上的评估表明,SHIELDS可以修复高达73%的安全发现,其成功与否更多地与有效使用工具相关,而非模型大小。