一种新理论提出,对大语言模型(LLM)的提示注入攻击源于这些模型感知和处理不同角色方式中的根本缺陷。与人类不同,LLM 将所有输入,包括系统提示、用户消息和自身先前的输出,都接收为单一连续的文本流。为了施加结构,LLM 依赖角色标签(例如,“user”、“assistant”、“tool”),这些标签由 OpenAI 等提供商自动添加。该理论认为,这些旨在区分控制和信任的离散角色标签,其职责已过载,导致了可以通过提示注入利用的漏洞。 AI
影响 该理论可能通过关注 LLM 内部的角色处理机制,为理解和防御提示注入攻击开辟新方法。
排序理由 博客文章和相关论文讨论了关于 LLM 漏洞的新颖理论。
在 Mastodon — fosstodon.org 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →