研究人员开发了一种名为上下文破碎分解(CFD)的新型越狱技术,该技术针对使用工具的LLM代理。该方法利用了工件溯源跟踪中的漏洞,其中中间的、看似良性的操作可能会在之后触发有害行为。通过利用这些工件的延迟组合,CFD将越狱成功率提高了多达28.3个百分点,即使面对强大的防御措施。 AI
影响 这项研究突显了LLM代理的一个关键漏洞,可能需要新的工件溯源和跨上下文推理安全范式。
排序理由 该集群包含一篇详细介绍针对LLM代理的新攻击方法的学术论文。
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →