已开发出一个名为AgentCIBench的新评估工具,用于评估计算机使用代理(CUA)的上下文完整性。这些代理在电子邮件和日历等个人应用程序中运行,可能将一个上下文中的敏感信息暴露给另一个上下文,从而带来隐私风险。AgentCIBench识别出三种常见的故障模式:视觉共址、任务歧义过度分享和接收者错位。对15个前沿代理的测试显示失败率很高,其中11个代理在超过50%的场景中泄露信息,平均泄露率为67.9%。研究人员希望通过发布AgentCIBench作为部署前安全检查,来促进更安全的CUA的开发。 AI
影响 突显了与个人应用程序交互的AI代理中存在的关键隐私漏洞,需要在部署前进行新的安全检查。
排序理由 该集群包含一篇介绍AI代理新评估基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →