研究人员开发了SkillHarm,这是一个旨在通过评估其生命周期中的基于技能的攻击来测试AI代理安全性的新基准。该基准包括用于构建受污染技能的自动化方法,展示了当前代理存在的重大漏洞,攻击成功率高达86.3%。研究结果表明,许多明显的防御成功是由于代理未与受污染文件交互,表明当前的防御措施不足。 AI
影响 凸显了AI代理关键的安全漏洞,需要改进防御措施以实现可靠的代理部署。
排序理由 该集群包含一篇介绍新基准和方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →