研究人员开发了一种名为Patcher的新方法,用于防御开源大语言模型免受恶意微调攻击。这些攻击会利用有毒数据集在监督微调过程中损害模型的安全性。Patcher受对抗性训练的启发,通过增加优化步骤来创建能够抵抗更强、全参数微调攻击的模型参数。实验表明,Patcher在提高模型在各种攻击场景和模型规模下的鲁棒性方面非常有效。 AI
影响 通过提供强大的对抗性微调防御能力,增强了LLM的安全性。
排序理由 该集群包含一篇详细介绍LLM安全新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →