实体
AdvBench
AdvBench
PulseAugur coverage of AdvBench — every cluster mentioning AdvBench across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
最近 · 第 1/1 页 · 共 2 条
-
新的 Logit-Gap Steering 方法可有效衡量 AI 对齐鲁棒性
研究人员开发了一种名为“拒绝-肯定对数几率差距”的新指标,用于量化已对齐语言模型的安全裕度。该指标衡量拒绝和肯定 token 对数几率之间的差异,可通过前向传播诊断进行高效计算。该研究还引入了 logit-gap steering,一种无梯度方法,可发现用于缩小此安全差距的短后缀,表明当前的对齐裕度可能很薄且易受操纵。
-
New diagnostic tool probes LLM circuits for safety and behavior insights
A new research paper introduces "Perturbation Probing," a diagnostic method for understanding the internal workings of large language models. This technique uses two forward passes per prompt to identify and analyze "be…