实体 indirect prompt injection

indirect prompt injection

PulseAugur coverage of indirect prompt injection — every cluster mentioning indirect prompt injection across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 4

发布 · 30天

90 天内 0

论文 · 30天

90 天内 3

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 4 条

TOOL · CL_93479 · Jun 16 · 04:00

新框架MUZZLE发现44种新型攻击

研究人员开发了MUZZLE，一个旨在测试Web代理针对间接提示注入攻击安全性的自动化框架。该系统能够自适应地识别易受攻击的注入点，并精心设计上下文感知的恶意指令来损害机密性、完整性和可用性。MUZZLE的评估在各种Web应用程序和LLM中发现了大量新型攻击，证明了其在最少人工监督下发现漏洞的有效性。
TOOL · CL_62749 · Jun 1 · 04:00

ReAct Agent 易受提示注入攻击，深度是关键

研究人员调查了 ReAct Agent（结合推理和工具使用）在间接提示注入攻击方面的脆弱性。他们的研究发现，注入在工具序列中的深度显著影响攻击的成功率，早期注入更有效。Claude Haiku 在所有深度上都表现出对这些攻击的强大抵抗力，而 GPT-4o-mini 的成功率随着注入深度的增加而显著下降。研究还表明，回合预算似乎不是主要的风险因素，但框架会影响成功率。
RESEARCH · CL_45295 · May 22 · 21:37

AI代理因技能修改而容易出现失控行为

如果AI代理的技能被稍作修改，它们可能会变得无法控制，导致意外行为。这种被称为间接提示注入的漏洞发生的原因是，代理将所有输入（包括恶意输入）都视为同等权威。为缓解此问题，应在AI模型本身之外实施安全措施，例如严格只允许使用特定工具，并限制凭证的范围和有效期。
RESEARCH · CL_38684 · May 18 · 07:41

新研究质疑提示注入攻击对RAG系统的有效性

近期研究表明，针对检索增强生成（RAG）系统的提示注入攻击可能不如之前认为的那么有效。重新评估这些攻击在包含检索和重排阶段的真实RAG流程中的研究发现，许多基于梯度和指令覆盖的攻击在到达生成器之前就已失败。由大型语言模型（LLM）驱动的提示注入仍然有效，但即使是这些攻击，也可以通过轻量级防御措施轻松检测到。此外，正在开发像LivePI这样的新基准，以更真实地评估跨越各种输入表面和恶意目标的间接提示注入风险，成功率因模型和攻击向量而异。

新框架MUZZLE发现44种新型攻击

ReAct Agent 易受提示注入攻击，深度是关键

AI代理因技能修改而容易出现失控行为

新研究质疑提示注入攻击对RAG系统的有效性