PulseAugur
实时 17:14:22
English(EN) Turn-Based Structural Triggers: Prompt-Free Backdoors in Multi-Turn LLMs

新型后门攻击利用语言模型对话结构

研究人员开发了一种名为“基于回合的结构化触发器”(Turn-based Structural Triggers, TST)的新型后门攻击,它利用大型语言模型(LLMs)的对话结构,而非用户可见的提示。该攻击使用对话中的回合索引作为触发器,使得被植入后门的模型能够在对话的特定点执行恶意行为,而无需任何可识别的输入触发器。TST在多个语言模型家族中展示了高攻击成功率,同时在非触发任务上保持正常性能,凸显了多轮对话式AI系统中的新漏洞。 AI

影响 揭示了语言模型的新攻击向量,需要开发超越提示检查的、感知结构的审计方法。

排序理由 该集群包含一篇详细介绍语言模型新攻击方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Yiyang Lu, Jinwen He, Yue Zhao, Kai Chen, Ruigang Liang, Cheng Hong, Yingjun Zhang ·

    回合制结构触发器:多轮大语言模型的无提示后门

    arXiv:2601.14340v2 Announce Type: replace-cross Abstract: Large Language Models (LLMs) are widely integrated into interactive systems such as dialogue agents and task-oriented assistants. This growing ecosystem also raises supply-chain risks, where adversaries can distribute pois…