English(EN) The Attentional White Bear Effect in Transformer Language Models

研究揭示大型语言模型在抑制下仍保留隐藏概念

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-27 15:45

一篇新研究论文探讨了基于指令的抑制在大语言模型中的有效性，发现尽管模型可以被训练来避免表达禁止内容，但底层概念仍可从其内部表征中恢复。该研究在各种Transformer模型上利用了表征探测、注意力分析和行为语义泄露实验。结果表明，即使在成功进行词汇规避的情况下，禁止概念仍会影响注意力路由并塑造下游生成，揭示了这些模型在行为和表征对齐之间存在显著差距。 AI

影响揭示了大型语言模型安全机制中的根本性差距，表明当前的抑制技术可能无法完全减轻与禁止内容相关的风险。

排序理由该集群包含一篇发表在arXiv上的学术论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Rebecca Ramnauth, Brian Scassellati · 2026-05-28 04:00

Transformer语言模型中的注意力白熊效应

arXiv:2605.28639v1 Announce Type: cross Abstract: Instruction-based suppression is widely used to prevent language models from generating prohibited content, yet it remains unclear whether suppression reduces internal representation or merely suppresses expression. We investigate…
arXiv cs.AI TIER_1 English(EN) · Brian Scassellati · 2026-05-27 15:45

Transformer语言模型中的注意力白熊效应

Instruction-based suppression is widely used to prevent language models from generating prohibited content, yet it remains unclear whether suppression reduces internal representation or merely suppresses expression. We investigate this question through representational probing, a…

报道来源 [2]

Transformer语言模型中的注意力白熊效应

Transformer语言模型中的注意力白熊效应

相关实体

相关话题