English(EN) FlipGuard: Defending Large Language Models Against Quantization-Conditioned Backdoor Attacks

新的防御框架FlipGuard通过量化技术对抗LLM后门攻击

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员开发了FlipGuard，一个旨在保护大型语言模型（LLM）免受由量化激活的后门攻击的新防御框架。这些攻击利用了对LLM高效部署至关重要的模型量化过程，通过隐藏只有在特定量化失真后才会显现的恶意行为。FlipGuard通过在量化前主动改变模型权重来工作，破坏恶意模式与量化边界之间的联系。这种防御不需要访问训练数据或触发样本，并且已被证明在包括代码生成、内容注入和过度拒绝在内的各种场景中能有效中和后门激活，同时对模型性能的影响极小。 AI

影响通过减轻与模型量化相关的风险来增强LLM安全性，可能支持LLM在敏感应用中更安全地部署。

排序理由详细介绍LLM新防御机制的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Aoying Zheng, Anqi Du, Zizhuang Deng, Yuxuan Chen · 2026-06-30 04:00

FlipGuard: Defending Large Language Models Against Quantization-Conditioned Backdoor Attacks

arXiv:2606.28962v1 Announce Type: cross Abstract: Model quantization is essential for the efficient deployment of Large Language Models (LLMs), but introduces a critical vulnerability: Quantization-Conditioned Backdoor (QCB) attacks. In these attacks, malicious behaviors remain d…

报道来源 [1]

FlipGuard: Defending Large Language Models Against Quantization-Conditioned Backdoor Attacks

相关实体

相关话题