研究人员开发了一个新颖的框架,用于检测大型语言模型 (LLM) Agent 的工具调用流量中的攻击。该系统将 Agent 会话表示为图,并结合工具参数和响应的句子嵌入特征来将流量分类为良性或恶意。研究发现,内容级特征对于有效检测至关重要,其性能显著优于仅使用元数据的方法,并指出了一个可能夸大性能指标的常见评估陷阱。 AI
影响 这项研究通过检测恶意的工具使用,引入了一种更强大的保护 LLM Agent 的方法,这可能会提高与外部服务交互的 AI 系统的安全性和可靠性。
排序理由 学术论文,详细介绍了 LLM Agent 工具调用流量的新检测框架。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →