PulseAugur
实时 11:11:43
实体 Diff-in-Means

Diff-in-Means

PulseAugur coverage of Diff-in-Means — every cluster mentioning Diff-in-Means across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_91338 ·

    AI拒绝控制:DiM与INLP方法比较

    研究人员比较了两种控制AI聊天模型拒绝行为的方法:均值差(Diff-in-Means, DiM)和迭代零空间投影(Iterative Nullspace Projection, INLP)。研究发现,INLP的反事实翻转干预在抑制模型拒绝方面与DiM的方向消融一样有效,而其零空间投影方法效果较差。将INLP限制在关键方向上,可以在对模型困惑度影响最小的情况下,保留其大部分抑制能力,提供了一种可调控的AI响应控制方法。