English(EN) Forensic Trajectory Signatures for Agent Memory Poisoning Detection

新方法以99%的准确率检测AI代理记忆投毒

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-29 17:09

研究人员通过分析AI代理的工具调用轨迹，发现了一种检测其记忆投毒攻击的新颖方法。他们发现了一个行为不变性，即成功的攻击总是涉及在调用`email_send_email`之前调用`memory_recall_fact`，而合法会话中很少出现这种序列。当与随机森林分类器结合使用时，这种不变性实现了高检测率（AUC = 0.9904），并且无需重新训练即可泛化到包括GPT-4.1和GPT-4o在内的各种模型。该方法还可以仅使用工具调用日志区分记忆通道攻击和提示注入攻击。 AI

影响这项研究为保护AI代理免受记忆投毒提供了一种强大的方法，有可能提高AI系统在关键应用中的可靠性。

排序理由该集群包含一篇详细介绍检测AI代理记忆投毒新方法的论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.LG TIER_1 English(EN) · Jun Wen Leong · 2026-06-30 04:00

用于检测代理记忆中毒的法证轨迹签名

arXiv:2606.30566v1 Announce Type: cross Abstract: We discover a behavioral invariant in LLM agents under persistent memory poisoning: in architectures where routing information is retrieved through observable memory-tool invocations, successful attacks require calling memory_reca…
arXiv cs.LG TIER_1 English(EN) · Jun Wen Leong · 2026-06-29 17:09

用于检测代理记忆中毒的法证轨迹签名

We discover a behavioral invariant in LLM agents under persistent memory poisoning: in architectures where routing information is retrieved through observable memory-tool invocations, successful attacks require calling memory_recall_fact before email_send_email, a transition that…

报道来源 [2]

用于检测代理记忆中毒的法证轨迹签名

用于检测代理记忆中毒的法证轨迹签名

相关实体

相关话题