PulseAugur
实时 06:55:01
English(EN) New ablation operator. (apostate)

新的“apostate”算子可降低 LLM 拒绝率,影响极小

一种名为“对比共向量”(contrastive co-vector)的新算子已被开发用于“apostate”工具,旨在降低语言模型的拒绝率,同时最大限度地减少对无害行为的影响。该方法包括拟合一个预测器来重现无害方差,同时明确抑制有害提示。在“granite-3.3.8b”模型上进行的测试显示,拒绝率从 96.0% 显著降低到 5.0%,无害 KL 散度仅略微增加到 0.081 nats。 AI

影响 这一新算子可能带来更合规、限制性更小的 AI 模型,从而改善用户交互和实用性。

排序理由 该项目描述了一种修改语言模型的新技术方法,包括实验结果,属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的“apostate”算子可降低 LLM 拒绝率,影响极小

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/AccountAntique9327 ·

    新的消融算子。(叛教者)

    <!-- SC_OFF --><div class="md"><p>Today I added a new operator to apostate. This new operator is a <strong>contrastive co-vector</strong> edit <code>E = I − R Dᵀ</code>. Removing the refusal direction outright disturbs benign behavior, while naively preserving all harmless varian…