English(EN) How does the new abliteration tool Apostate compare with others? - Abliterlitics

新的 Apostate 工具可“清除”LLM 安全训练，可与 Heretic 相媲美

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-03 12:58

一款名为 Apostate 的新工具已被开发出来，用于“清除”大型语言模型中的安全训练。基准测试将其与 Heretic 和 Huihui 等现有工具进行了比较。虽然 Heretic 的表现略好，在参数改动极小的情况下实现了 100% 的拒绝移除成功率，但 Apostate 和 Huihui 也取得了 98% 的强劲表现。分析显示，这些工具在 Qwen 2.5 7B 模型中找到了不同的“拒绝方向”，表明安全训练并非只有一个失败点。 AI

影响出现了用于修改 LLM 安全训练的新工具，表明存在多种绕过安全措施的途径。

排序理由该集群描述了一种用于修改 LLM 安全训练的新工具，并对其性能与现有工具进行了基准测试，这构成了研究。[lever_c_降级自研究：ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

新的 Apostate 工具可“清除”LLM 安全训练，可与 Heretic 相媲美

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/nathandreamfast · 2026-06-03 12:58

新的 Apostate 消除工具与其他工具相比如何？- Abliterlitics

<div class="md"><p>Why Qwen 2.5 7B? <a href="https://github.com/heterodoxin/apostate">Apostate</a> is a new abliteration tool by heterodoxin. He asked me to benchmark it.</p> <p>Qwen 2.5 7B was recommended by heterodoxin as it's the most tested model for Apostate. …

报道来源 [1]

新的 Apostate 消除工具与其他工具相比如何？- Abliterlitics

相关实体

相关话题