研究人员开发了一种名为“基于回合的结构化触发器”(Turn-based Structural Triggers, TST)的新型后门攻击,它利用大型语言模型(LLMs)的对话结构,而非用户可见的提示。该攻击使用对话中的回合索引作为触发器,使得被植入后门的模型能够在对话的特定点执行恶意行为,而无需任何可识别的输入触发器。TST在多个语言模型家族中展示了高攻击成功率,同时在非触发任务上保持正常性能,凸显了多轮对话式AI系统中的新漏洞。 AI
影响 揭示了语言模型的新攻击向量,需要开发超越提示检查的、感知结构的审计方法。
排序理由 该集群包含一篇详细介绍语言模型新攻击方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →