MetaBackdoor 攻击利用 LLM 位置编码发现新漏洞

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-14 17:56

研究人员发现了一种大型语言模型的新型漏洞，称为 MetaBackdoor，它利用位置编码而非文本内容进行激活。该攻击利用模型对标记顺序的内在理解来触发恶意行为，例如泄露敏感信息或执行未经授权的工具调用。研究结果表明，目前主要关注基于内容的触发器的防御措施不足，需要新的策略来解决这种位置编码攻击面。 AI

影响揭示了 LLM 的一种新攻击向量，需要更新安全协议和防御措施，超越内容分析。

排序理由详细介绍 LLM 中一类新安全漏洞的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Ahmed Salem · 2026-05-14 17:56

MetaBackdoor: Exploiting Positional Encoding as a Backdoor Attack Surface in LLMs

Backdoor attacks pose a serious security threat to large language models (LLMs), which are increasingly deployed as general-purpose assistants in safety- and privacy-critical applications. Existing LLM backdoors rely primarily on content-based triggers, requiring explicit modific…

报道来源 [1]

MetaBackdoor: Exploiting Positional Encoding as a Backdoor Attack Surface in LLMs

相关实体

相关话题