PulseAugur
实时 05:22:16
实体 Logit-Gap Steering

Logit-Gap Steering

PulseAugur coverage of Logit-Gap Steering — every cluster mentioning Logit-Gap Steering across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_15984 ·

    新的 Logit-Gap Steering 方法可有效衡量 AI 对齐鲁棒性

    研究人员开发了一种名为“拒绝-肯定对数几率差距”的新指标,用于量化已对齐语言模型的安全裕度。该指标衡量拒绝和肯定 token 对数几率之间的差异,可通过前向传播诊断进行高效计算。该研究还引入了 logit-gap steering,一种无梯度方法,可发现用于缩小此安全差距的短后缀,表明当前的对齐裕度可能很薄且易受操纵。