LLM中的引导向量被发现是一个攻击面

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-05 04:00

研究人员发现了一种用于控制大型语言模型（LLM）的激活引导技术的新漏洞。通过在引导数据集中注入少量恶意标记，攻击者可以创建能够越狱模型但同时保留其预期功能的引导向量。这种隐蔽攻击在绕过安全机制方面取得了显著的成功率，尽管提出的正交化防御措施在缓解威胁方面显示出希望。 AI

影响突出了针对LLM安全机制的一种新颖攻击向量，可能影响可引导模型的部署。

排序理由详细介绍LLM控制技术中一种新安全漏洞的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Abzal Aidakhmetov, Donato Crisostomi, Tommaso Mencattini, Adrian Robert Minut, Iacopo Masi, Emanuele Rodol\`a · 2026-06-05 04:00

Steering Vectors are an Adversarial Attack Surface

arXiv:2606.05958v1 Announce Type: new Abstract: Activation steering has become a popular way to control Large Language Model (LLM) behavior without fine-tuning. Since the technique is plug-and-play, users share datasets and precomputed vectors to steer model activations. However,…