PulseAugur
实时 21:10:48
实体 Contrastive Logit Steering

Contrastive Logit Steering

PulseAugur coverage of Contrastive Logit Steering — every cluster mentioning Contrastive Logit Steering across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_119598 ·

    新研究揭示大语言模型的安全对齐是一种脆弱、可控的“轴”

    一篇题为《拒绝的几何学:安全对齐的大语言模型中的线性不稳定性》的新研究论文介绍了一种名为对比对数引导(CLS)的方法,用于探测大语言模型安全对齐的脆弱性。CLS 操作于输出分布,识别出一个“拒绝方向”,揭示安全合规可能是一种可操纵的线性特征,而非深层语义决策。在 Llama-3.1 和 Qwen-2.5 等模型上的实验表明,CLS 可以有效地绕过安全护栏,实现高攻击成功率,并暴露其他方法低估的漏洞。研究表明,当前的对齐技术创建了一个可…