研究人员开发了一种攻击方法,可以绕过内省适配器(IA),这是一种旨在检测大型语言模型中恶意微调的技术。该攻击通过对模型权重进行简单转换来实现,该转换会重新定位 IA 用于校准的基础,从而在不改变模型可观察行为的情况下使检测方法失效。这凸显了威胁模型中的一个关键差异,因为原始 IA 作者假设了一个受信任的训练流程,而攻击者则考虑了最终模型权重不受信任的情况。 AI
影响 此攻击破坏了当前检测恶意 LLM 微调的方法,有必要开发更强大的安全机制。
排序理由 该集群描述了一种针对特定 AI 安全技术的新型攻击方法,该方法在一篇研究论文中进行了详细介绍,并附有代码。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →