一篇新研究论文详细介绍了如何通过训练数据投毒来破坏LoRA适配器,LoRA适配器常用于微调大型语言模型(LLMs)。这种攻击可以引入后门,在保持模型原始性能的同时实现恶意行为。研究对攻击在令牌特征层面的泛化进行了表征,并提出了两种检测方法:一种使用探针统计数据的行为检测器,以及一种分析适配器统计数据的权重级检测器。这些方法在识别被投毒的适配器方面显示出有效性,其中行为检测器在供应链扫描方面表现出操作上的可移植性。 AI
影响 这项研究突显了LLM供应链中的一个重大漏洞,需要为适配器部署采取强大的安全措施。
排序理由 该集群包含一篇研究论文,详细介绍了LLM适配器的新攻击向量和检测方法。
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →