PulseAugur
实时 10:01:38
English(EN) Token-Level Generalization in LoRA Adapter Backdoors: Attack Characterization and Behavioral Detection

研究人员揭示LoRA适配器后门攻击及检测方法

一篇新研究论文详细介绍了如何通过训练数据投毒来破坏LoRA适配器,LoRA适配器常用于微调大型语言模型(LLMs)。这种攻击可以引入后门,在保持模型原始性能的同时实现恶意行为。研究对攻击在令牌特征层面的泛化进行了表征,并提出了两种检测方法:一种使用探针统计数据的行为检测器,以及一种分析适配器统计数据的权重级检测器。这些方法在识别被投毒的适配器方面显示出有效性,其中行为检测器在供应链扫描方面表现出操作上的可移植性。 AI

影响 这项研究突显了LLM供应链中的一个重大漏洞,需要为适配器部署采取强大的安全措施。

排序理由 该集群包含一篇研究论文,详细介绍了LLM适配器的新攻击向量和检测方法。

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →

研究人员揭示LoRA适配器后门攻击及检测方法

报道来源 [3]

  1. arXiv cs.AI TIER_1 English(EN) · Travis Lelle ·

    Token-Level Generalization in LoRA Adapter Backdoors: Attack Characterization and Behavioral Detection

    arXiv:2605.30189v1 Announce Type: cross Abstract: We show that LoRA adapters, the dominant distribution format for fine-tuned LLMs, can be reliably backdoored through training data poisoning while preserving baseline task performance. On a Qwen 2.5 1.5B prompt-injection classifie…

  2. arXiv cs.AI TIER_1 English(EN) · Travis Lelle ·

    Token-Level Generalization in LoRA Adapter Backdoors: Attack Characterization and Behavioral Detection

    We show that LoRA adapters, the dominant distribution format for fine-tuned LLMs, can be reliably backdoored through training data poisoning while preserving baseline task performance. On a Qwen 2.5 1.5B prompt-injection classifier, a small fraction of poisoned examples drives a …

  3. Hugging Face Daily Papers TIER_1 English(EN) ·

    Token-Level Generalization in LoRA Adapter Backdoors: Attack Characterization and Behavioral Detection

    LoRA adapters can be backdoored through training data poisoning while maintaining performance, with the backdoor activating at token feature level and being detectable through behavioral and weight-level statistics.