PulseAugur
实时 19:29:50
English(EN) How does the new abliteration tool Apostate compare with others? - Abliterlitics

新的 Apostate 工具可“清除”LLM 安全训练,可与 Heretic 相媲美

一款名为 Apostate 的新工具已被开发出来,用于“清除”大型语言模型中的安全训练。基准测试将其与 HereticHuihui 等现有工具进行了比较。虽然 Heretic 的表现略好,在参数改动极小的情况下实现了 100% 的拒绝移除成功率,但 Apostate 和 Huihui 也取得了 98% 的强劲表现。分析显示,这些工具在 Qwen 2.5 7B 模型中找到了不同的“拒绝方向”,表明安全训练并非只有一个失败点。 AI

影响 出现了用于修改 LLM 安全训练的新工具,表明存在多种绕过安全措施的途径。

排序理由 该集群描述了一种用于修改 LLM 安全训练的新工具,并对其性能与现有工具进行了基准测试,这构成了研究。[lever_c_降级自研究:ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/nathandreamfast ·

    How does the new abliteration tool Apostate compare with others? - Abliterlitics

    <!-- SC_OFF --><div class="md"><p>Why Qwen 2.5 7B? <a href="https://github.com/heterodoxin/apostate">Apostate</a> is a new abliteration tool by heterodoxin. He asked me to benchmark it.</p> <p>Qwen 2.5 7B was recommended by heterodoxin as it's the most tested model for Apostate. …