PulseAugur
实时 12:45:55
English(EN) Refusal Beyond a Single Direction: A Preliminary Comparison of Diff-in-Means and INLP

AI拒绝控制:DiM与INLP方法比较

研究人员比较了两种控制AI聊天模型拒绝行为的方法:均值差(Diff-in-Means, DiM)和迭代零空间投影(Iterative Nullspace Projection, INLP)。研究发现,INLP的反事实翻转干预在抑制模型拒绝方面与DiM的方向消融一样有效,而其零空间投影方法效果较差。将INLP限制在关键方向上,可以在对模型困惑度影响最小的情况下,保留其大部分抑制能力,提供了一种可调控的AI响应控制方法。 AI

影响 提供了可调控的AI拒绝控制方法,有望提高聊天模型的安全性和可靠性。

排序理由 这是一篇发表在arXiv上的研究论文,比较了两种控制AI拒绝行为的方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Elisabetta Rocchetti, Alfio Ferrara ·

    Refusal Beyond a Single Direction: A Preliminary Comparison of Diff-in-Means and INLP

    arXiv:2606.13720v1 Announce Type: new Abstract: Arditi et al. (2024) has shown that refusal in safety fine-tuned chat models is mediated by a single linear direction in the residual stream, recoverable by a difference-in-means (DiM) of harmful and harmless activations. We compare…