实体 Contrastive Logit Steering

Contrastive Logit Steering

PulseAugur coverage of Contrastive Logit Steering — every cluster mentioning Contrastive Logit Steering across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_119598 · Jul 1 · 04:00

新研究揭示大语言模型的安全对齐是一种脆弱、可控的“轴”

一篇题为《拒绝的几何学：安全对齐的大语言模型中的线性不稳定性》的新研究论文介绍了一种名为对比对数引导（CLS）的方法，用于探测大语言模型安全对齐的脆弱性。CLS 操作于输出分布，识别出一个“拒绝方向”，揭示安全合规可能是一种可操纵的线性特征，而非深层语义决策。在 Llama-3.1 和 Qwen-2.5 等模型上的实验表明，CLS 可以有效地绕过安全护栏，实现高攻击成功率，并暴露其他方法低估的漏洞。研究表明，当前的对齐技术创建了一个可…

新研究揭示大语言模型的安全对齐是一种脆弱、可控的“轴”