English(EN) New ablation operator. (apostate)

新的“apostate”算子可降低 LLM 拒绝率，影响极小

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-22 21:14

一种名为“对比共向量”（contrastive co-vector）的新算子已被开发用于“apostate”工具，旨在降低语言模型的拒绝率，同时最大限度地减少对无害行为的影响。该方法包括拟合一个预测器来重现无害方差，同时明确抑制有害提示。在“granite-3.3.8b”模型上进行的测试显示，拒绝率从 96.0% 显著降低到 5.0%，无害 KL 散度仅略微增加到 0.081 nats。 AI

影响这一新算子可能带来更合规、限制性更小的 AI 模型，从而改善用户交互和实用性。

排序理由该项目描述了一种修改语言模型的新技术方法，包括实验结果，属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

granite-3.3-8b

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/AccountAntique9327 · 2026-06-22 21:14

新的消融算子。(叛教者)

<div class="md"><p>Today I added a new operator to apostate. This new operator is a <strong>contrastive co-vector</strong> edit <code>E = I − R Dᵀ</code>. Removing the refusal direction outright disturbs benign behavior, while naively preserving all harmless varian…

报道来源 [1]

新的消融算子。(叛教者)

相关实体

相关话题