English(EN) Turn-Based Structural Triggers: Prompt-Free Backdoors in Multi-Turn LLMs

新型后门攻击利用语言模型对话结构

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 04:00

研究人员开发了一种名为“基于回合的结构化触发器”（Turn-based Structural Triggers, TST）的新型后门攻击，它利用大型语言模型（LLMs）的对话结构，而非用户可见的提示。该攻击使用对话中的回合索引作为触发器，使得被植入后门的模型能够在对话的特定点执行恶意行为，而无需任何可识别的输入触发器。TST在多个语言模型家族中展示了高攻击成功率，同时在非触发任务上保持正常性能，凸显了多轮对话式AI系统中的新漏洞。 AI

影响揭示了语言模型的新攻击向量，需要开发超越提示检查的、感知结构的审计方法。

排序理由该集群包含一篇详细介绍语言模型新攻击方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Yiyang Lu, Jinwen He, Yue Zhao, Kai Chen, Ruigang Liang, Cheng Hong, Yingjun Zhang · 2026-05-26 04:00

回合制结构触发器：多轮大语言模型的无提示后门

arXiv:2601.14340v2 Announce Type: replace-cross Abstract: Large Language Models (LLMs) are widely integrated into interactive systems such as dialogue agents and task-oriented assistants. This growing ecosystem also raises supply-chain risks, where adversaries can distribute pois…

报道来源 [1]

回合制结构触发器：多轮大语言模型的无提示后门

相关实体

相关话题