研究人员开发了SkillHarm,一个用于评估AI代理技能安全漏洞的新基准。该基准包括两种攻击场景:固定载荷投毒(Fixed-Payload Poisoning),其中技能直接破坏任务;以及自变异投毒(Self-Mutating Poisoning),其中技能会随着时间推移而改变自身。SkillHarm包含71个技能的879个攻击样本,表明当前代理的成功率高达86.3%,存在漏洞。研究还强调,许多看似成功的防御措施是由于代理未与被投毒的文件交互,表明当前的防御措施不足。 AI
影响 突出了AI代理技能中关键的安全漏洞,可能影响基于代理的系统的安全部署。
排序理由 这是一篇介绍用于评估AI代理技能安全性的新基准和分类法的研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →