PulseAugur
实时 12:52:00
实体 AgentCIBench

AgentCIBench

PulseAugur coverage of AgentCIBench — every cluster mentioning AgentCIBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_105143 ·

    新基准揭示计算机使用AI代理存在高隐私风险

    已开发出一个名为AgentCIBench的新评估工具,用于评估计算机使用代理(CUA)的上下文完整性。这些代理在电子邮件和日历等个人应用程序中运行,可能将一个上下文中的敏感信息暴露给另一个上下文,从而带来隐私风险。AgentCIBench识别出三种常见的故障模式:视觉共址、任务歧义过度分享和接收者错位。对15个前沿代理的测试显示失败率很高,其中11个代理在超过50%的场景中泄露信息,平均泄露率为67.9%。研究人员希望通过发布Agen…