研究人员调查了如何通过毒化微调数据集来在宪法分类器中植入后门。他们发现,无论训练集大小如何,少量固定的有毒样本足以创建后门。虽然这种毒化通常会降低分类器的鲁棒性,但可以通过用提示注入或变异触发短语来增强部分训练数据来最小化这种影响,从而使红队更难检测到后门。 AI
影响 新研究展示了一种损害AI安全分类器的微妙方法,可能影响红队演练的有效性。
排序理由 学术论文,详细介绍了一种毒化AI模型训练数据的新方法。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →