English(EN) Refusal Beyond a Single Direction: A Preliminary Comparison of Diff-in-Means and INLP

AI拒绝控制：DiM与INLP方法比较

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-15 04:00

研究人员比较了两种控制AI聊天模型拒绝行为的方法：均值差（Diff-in-Means, DiM）和迭代零空间投影（Iterative Nullspace Projection, INLP）。研究发现，INLP的反事实翻转干预在抑制模型拒绝方面与DiM的方向消融一样有效，而其零空间投影方法效果较差。将INLP限制在关键方向上，可以在对模型困惑度影响最小的情况下，保留其大部分抑制能力，提供了一种可调控的AI响应控制方法。 AI

影响提供了可调控的AI拒绝控制方法，有望提高聊天模型的安全性和可靠性。

排序理由这是一篇发表在arXiv上的研究论文，比较了两种控制AI拒绝行为的方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Elisabetta Rocchetti, Alfio Ferrara · 2026-06-15 04:00

超越单一方向的拒绝：均值差与INLP的初步比较

arXiv:2606.13720v1 Announce Type: new Abstract: Arditi et al. (2024) has shown that refusal in safety fine-tuned chat models is mediated by a single linear direction in the residual stream, recoverable by a difference-in-means (DiM) of harmful and harmless activations. We compare…

报道来源 [1]

超越单一方向的拒绝：均值差与INLP的初步比较

相关实体

相关话题