一篇新发表在arXiv上的论文《关于共享嵌入序列模型中指令与数据不可分离性》(On the Inseparability of Instructions and Data in Shared-Embedding Sequence Models)提出了一个形式化证明,证明在当前共享嵌入语言模型中,从数学上讲无法阻止提示注入。该研究引入了提示动作模型(Prompted Action Models),并定义了语义忠实控制(Semantic-Faithful Control, SFC),证明由于不可信输入和控制权威动作在共享管道内的不可分离性,SFC是无法实现的。这种结构性限制,类似于冯·诺依曼机中的代码-数据混淆,表明需要通过架构上分离指令和数据通道来缓解提示注入风险,而不是仅仅依赖于管道内的分类或对齐技术。 AI
影响 表明需要进行根本性的架构转变,以保护大语言模型应用免受提示注入的侵害。
排序理由 发表在arXiv上的学术论文,详细阐述了当前大语言模型架构的理论局限性。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →