实体 Shields

Shields

PulseAugur coverage of Shields — every cluster mentioning Shields across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 2

发布 · 30天

0

90 天内 0

论文 · 30天

2

90 天内 2

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 2 条

TOOL · CL_102881 · Jun 21 · 19:01

AI防御对抗性攻击在适应性攻击下显示出局限性

本文探讨了针对AI模型的各种对抗性攻击的防御方法，重点关注对抗性训练、梯度掩码和防御蒸馏。虽然这些方法最初在保护模型免受细微扰动方面显示出希望，但作者证明了攻击者可以调整他们的策略来克服这些防御。文章强调了攻击者和防御者之间持续的对抗性博弈，并暗示一个真正牢不可破的模型可能难以实现，从而提出了一个问题：目标应该是避免自欺欺人，而不是实现无懈可击。
TOOL · CL_72417 · Jun 3 · 21:54

LLM驱动的SHIELDS通过迭代修复实现操作系统加固自动化

研究人员开发了SHIELDS，一个利用大型语言模型（LLMs）实现操作系统加固自动化的新型多智能体系统。与具有静态修复的传统工具不同，SHIELDS根据系统反馈和验证扫描迭代地提出和改进安全配置。在各种LLMs上的评估表明，SHIELDS可以修复高达73%的安全发现，其成功与否更多地与有效使用工具相关，而非模型大小。