一篇新论文认为,当前确保 AI 代理安全的、侧重于拒绝不安全输入的的方法存在根本性缺陷。作者认为,代理危害源于授权权限与实际行使权限之间的不匹配,这是模型训练文本数据中缺失的属性。他们提出,必须通过一种外部强制执行的最小权限原则来实现行动安全,并将其评估为行动对齐,而不是简单的拒绝分数。 AI
影响 当前 AI 代理的安全方法不足,需要转向外部、最小权限强制执行,以实现稳健的行动对齐。
排序理由 该集群包含一篇讨论 AI 安全机制的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →