研究人员开发了一个极小极大博弈框架来研究蒸馏攻击,在这种攻击中,有用的模型输出也可能促进模仿。该框架包括学生的自适应评估和教师的防御策略,该策略会抑制对蒸馏有价值的输出。一项实证研究表明,与被动评估所暗示的相比,自适应学生能够恢复显著更多的能力,从而缩小了昂贵防御与一种更简单、更便宜的称为专家产品(PoE)的防御之间的鲁棒性差距。研究结果表明,阻止强大的蒸馏仍然具有挑战性,并且应该针对自适应学生来评估防御措施。 AI
影响 这项研究引入了一个新的 AI 防御评估范式,表明当前的方法在面对自适应对手时可能不如以前认为的那样鲁棒。
排序理由 该集群包含一篇研究论文,详细介绍了针对 AI 蒸馏攻击的新框架和防御策略。[lever_c_demoted from research: ic=1 ai=1.0]
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →