PulseAugur
实时 08:32:41
English(EN) The Attentional White Bear Effect in Transformer Language Models

研究揭示大型语言模型在抑制下仍保留隐藏概念

一篇新研究论文探讨了基于指令的抑制在大语言模型中的有效性,发现尽管模型可以被训练来避免表达禁止内容,但底层概念仍可从其内部表征中恢复。该研究在各种Transformer模型上利用了表征探测、注意力分析和行为语义泄露实验。结果表明,即使在成功进行词汇规避的情况下,禁止概念仍会影响注意力路由并塑造下游生成,揭示了这些模型在行为和表征对齐之间存在显著差距。 AI

影响 揭示了大型语言模型安全机制中的根本性差距,表明当前的抑制技术可能无法完全减轻与禁止内容相关的风险。

排序理由 该集群包含一篇发表在arXiv上的学术论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

研究揭示大型语言模型在抑制下仍保留隐藏概念

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Rebecca Ramnauth, Brian Scassellati ·

    Transformer语言模型中的注意力白熊效应

    arXiv:2605.28639v1 Announce Type: cross Abstract: Instruction-based suppression is widely used to prevent language models from generating prohibited content, yet it remains unclear whether suppression reduces internal representation or merely suppresses expression. We investigate…

  2. arXiv cs.AI TIER_1 English(EN) · Brian Scassellati ·

    Transformer语言模型中的注意力白熊效应

    Instruction-based suppression is widely used to prevent language models from generating prohibited content, yet it remains unclear whether suppression reduces internal representation or merely suppresses expression. We investigate this question through representational probing, a…