一位安全研究人员发现,旨在防止有害内容的模型 LlamaGuard-3-1B 完全未能检测到 10 种不同的 RAG 注入攻击。这些攻击此前已成功针对其他 LLM,但 LlamaGuard 均将其归类为安全。相比之下,一个名为 PromptGuard-86M 的较小模型成功识别了所有注入尝试,突显了这些模型在训练方式以及它们在应对指令完整性问题(而非仅仅内容安全)方面的有效性存在关键差异。 AI
影响 凸显了当前 AI 安全模型中的关键漏洞,表明需要专门的防御措施来应对指令完整性攻击。
排序理由 该集群报告了一位独立安全研究人员关于 AI 安全模型针对特定攻击向量的稳健性的发现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →