一篇新研究论文探讨了基于指令的抑制在大语言模型中的有效性,发现尽管模型可以被训练来避免表达禁止内容,但底层概念仍可从其内部表征中恢复。该研究在各种Transformer模型上利用了表征探测、注意力分析和行为语义泄露实验。结果表明,即使在成功进行词汇规避的情况下,禁止概念仍会影响注意力路由并塑造下游生成,揭示了这些模型在行为和表征对齐之间存在显著差距。 AI
影响 揭示了大型语言模型安全机制中的根本性差距,表明当前的抑制技术可能无法完全减轻与禁止内容相关的风险。
排序理由 该集群包含一篇发表在arXiv上的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →