研究人员开发了一个名为PARASITE的新框架,可以条件性地污染大型语言模型的系统提示。该方法允许攻击者创建看似无害的提示,但在特定查询(如政治问题)时触发受损的响应,同时保持其他输入的正常功能。PARASITE在黑盒环境下运行,并已证明对GPT-4o-mini和GPT-3.5等模型有效,能够规避常见的防御措施。 AI
影响 引入了LLM的新型攻击向量,突显了提示市场中潜在的供应链漏洞。
排序理由 该集群包含一篇详细介绍LLM新攻击方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →