一款名为 Apostate 的新工具已被开发出来,用于“清除”大型语言模型中的安全训练。基准测试将其与 Heretic 和 Huihui 等现有工具进行了比较。虽然 Heretic 的表现略好,在参数改动极小的情况下实现了 100% 的拒绝移除成功率,但 Apostate 和 Huihui 也取得了 98% 的强劲表现。分析显示,这些工具在 Qwen 2.5 7B 模型中找到了不同的“拒绝方向”,表明安全训练并非只有一个失败点。 AI
影响 出现了用于修改 LLM 安全训练的新工具,表明存在多种绕过安全措施的途径。
排序理由 该集群描述了一种用于修改 LLM 安全训练的新工具,并对其性能与现有工具进行了基准测试,这构成了研究。[lever_c_降级自研究:ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →