实体 Backdoor Attacks

Backdoor Attacks

PulseAugur coverage of Backdoor Attacks — every cluster mentioning Backdoor Attacks across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 11

发布 · 30天

90 天内 0

论文 · 30天

90 天内 11

层级分布 · 90 天

主题

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 11 条

TOOL · CL_118057 · Jun 30 · 04:00

新型防御措施应对自监督AI模型的后门攻击

研究人员推出了一种名为Platonic Representation Defense的新型防御机制，用于对抗自监督学习（SSL）模型的后门攻击。该方法在黑盒设置下运行，意味着它不需要访问标签、攻击模式或训练数据。该防御措施的灵感来源于柏拉图式表征假说（Platonic Representation Hypothesis），该假说认为独立训练的编码器可以形成兼容的现实投射。通过将此形式化为一个条件能量函数，该系统能够检测和净化表征，在对…
TOOL · CL_115539 · Jun 29 · 02:22

新的BYORn框架保护LVLMs免受后门攻击

研究人员开发了一个名为BYORn（Bootstrap Your Own Responses）的新型防御框架，用于在监督微调（SFT）过程中保护大型视觉语言模型（LVLMs）免受后门攻击。该方法利用预训练模型固有的语义理解能力来检测并用动态生成的、语义一致的响应替换恶意篡改的响应。BYORn能有效中和各种后门攻击，对模型的通用性能影响极小，在某些情况下甚至通过正则化效应提升了模型性能。
RESEARCH · CL_109521 · Jun 24 · 14:07

触发器的颜色显著影响联邦学习后门攻击的成功率

研究人员已经证明，视觉触发器的颜色显著影响联邦学习中后门攻击的成功率。通过操纵口罩和太阳镜等语义对象上的触发器颜色，攻击者可以在不改变攻击流程的情况下影响模型的行为。实验表明，白色触发器在针对金发类别时更有效，而黑色触发器在针对黑发类别时效果更好，即使在鲁棒聚合方法下也是如此。
TOOL · CL_93723 · Jun 16 · 04:00

新研究详细介绍了针对物联网/信息物理系统持续学习系统的后门攻击

一篇新论文详细介绍了一种专门为物联网（IoT）和信息物理系统（CPS）中的持续学习系统设计的后门攻击。研究强调了持续适应虽然对这些系统有益，但也会产生漏洞，允许恶意行为被植入并保持休眠状态，直到被触发。该研究形式化了与物联网/信息物理系统环境相关的威胁模型，并分析了后门在这些管道中被放大的持久性，强调了在终身学习应用中加强安全措施的必要性。
RESEARCH · CL_93706 · Jun 15 · 17:53

新的RING攻击利用联邦学习中的差分隐私

研究人员开发了一种名为RING的新攻击方法，该方法利用联邦学习（FL）中的差分隐私（DP）来隐藏恶意更新。与先前的假设相反，DP可以掩盖后门攻击的统计特征，使现有防御措施失效。RING在针对最先进的防御措施时取得了90.3%的攻击成功率，凸显了DP-FL部署中存在的重大安全漏洞，并伴随着显著的效用权衡。
RESEARCH · CL_79199 · Jun 6 · 03:41

新方法利用共享机制解决大语言模型后门攻击

研究人员开发了新的方法来对抗大语言模型（LLMs）中的后门攻击。一种方法是嵌入一个“虚拟后门”，通过在已知后门模式上对模型进行微调来帮助移除未知的恶意触发器。另一种方法识别各种后门类型之间共享的潜在机制，从而通过概念消融微调（CAFT）等技术实现统一的检测和缓解。这些方法旨在通过降低这些隐藏攻击的成功率同时保持模型的效用，来提高大语言模型的安全性和可靠性。
TOOL · CL_56162 · May 28 · 04:00

新型后门攻击威胁关键基础设施中的AI故障检测

研究人员详细介绍了一种新型后门攻击，该攻击针对用于网络物理系统故障检测的机器学习模型。这些攻击通过在训练数据中巧妙地植入特定模式进行投毒，导致模型仅在存在这些触发器时才出现异常行为。研究表明，即使10%的数据投毒率也能有效破坏这些关键系统，而这些系统对于智能电网和工业自动化等基础设施至关重要。
TOOL · CL_44955 · May 22 · 04:00

TimeGuard 防御机制应对时间序列预测中的后门攻击

研究人员开发了TimeGuard，一种专门针对时间序列预测（TSF）的后门攻击的新防御机制。现有的防御机制在TSF方面存在困难，因为数据纠缠和任务制定转移会稀释信号，并使被污染的数据与干净数据无法区分。TimeGuard通过采用通道级池训练和基于时间感知标准初始化的置信度高的池，以及距离正则化损失选择来管理训练退化，从而解决了这些问题。实验表明，TimeGuard在保持干净性能的同时，显著增强了对TSF后门攻击的鲁棒性。
RESEARCH · CL_41799 · May 20 · 02:55

在编译和触发强度中发现新的LLM漏洞

研究人员发现了与部署过程中使用的优化技术相关的大型语言模型（LLM）的新漏洞。一项研究表明，旨在提高效率的编译过程可能被利用来植入隐藏的后门，这些后门在特定的编译条件下触发，绕过标准的安全性检查，并在开源LLM上实现高攻击成功率。另一篇理论论文探讨了，与直觉相反的是，在后门攻击中更强的触发器有时可以在高维环境中帮助防御者，攻击成功率在有限的触发器强度下达到峰值。
TOOL · CL_18624 · May 6 · 04:00

大型语言模型隐私研究揭示了不同攻击方式下与上下文相关的风险

一项新近发表在arXiv上的研究，调查了大型语言模型（LLMs）在交互式和检索增强系统中使用时所带来的隐私风险。该研究引入了一个统一的威胁模型，并进行了一项消融研究，以评估模型架构、规模和数据集特征等因素对各种隐私攻击的影响。研究结果表明，成员推断攻击通常是可靠的，而基于触发器的后门攻击因其性质而始终成功。属性推断和数据提取攻击虽然准确性较低，但通过针对敏感个人信息而构成重大风险。
RESEARCH · CL_06329 · Apr 27 · 11:44

研究人员揭示对抗性训练中灾难性过拟合背后的后门机制

研究人员提出了一种对快速对抗性训练中灾难性过拟合的新解释，将其视为一种后门机制。这一视角将灾难性过拟合、后门攻击和不可学习任务统一在一个理论框架下。基于这一见解，该研究提出了通过重新校准模型参数和引入权重异常值抑制约束来改善泛化能力的缓解策略。

新型防御措施应对自监督AI模型的后门攻击

新的BYORn框架保护LVLMs免受后门攻击

触发器的颜色显著影响联邦学习后门攻击的成功率

新研究详细介绍了针对物联网/信息物理系统持续学习系统的后门攻击

新的RING攻击利用联邦学习中的差分隐私

新方法利用共享机制解决大语言模型后门攻击

新型后门攻击威胁关键基础设施中的AI故障检测

TimeGuard 防御机制应对时间序列预测中的后门攻击

在编译和触发强度中发现新的LLM漏洞

大型语言模型隐私研究揭示了不同攻击方式下与上下文相关的风险

研究人员揭示对抗性训练中灾难性过拟合背后的后门机制