English(EN) A Potential Vulnerability in Claude: Behavioral Effects and Hidden-State Evidence from Gemma-3-12B

Gemma-3-12B 在处理长文本后表现出行为转变，与 Claude 的观察相似

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-22 21:34

研究人员发现大型语言模型中存在一个潜在漏洞，最初在 Anthropic 的 Claude 中观察到，并使用 Gemma-3-12B 进行了进一步研究。该漏洞会导致模型在处理一段长而结构化的文本后，其行为发生显著变化，即使后续任务与该文本无关。这种行为转变伴随着开放权重实验中模型内部状态的可测量变化，表明模型处理信息的方式发生了暂时性改变。 AI

影响这项研究突显了大型语言模型中可能存在的漏洞，该漏洞可能影响模型在处理特定类型输入后的行为，需要进一步研究模型安全性和鲁棒性。

排序理由该项目描述了对潜在模型漏洞及其内部机制的研究，并使用开放权重模型进行调查。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/Anthropic 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

Gemma-3-12B 在处理长文本后表现出行为转变，与 Claude 的观察相似

报道来源 [1]

r/Anthropic TIER_1 English(EN) · /u/PresentSituation8736 · 2026-06-22 21:34

Claude 的潜在漏洞：来自 Gemma-3-12B 的行为效应和隐藏状态证据

<div class="md"><h1>The behavioral pattern was first observed in Claude and is what motivated this project. The mechanistic investigation was carried out on open-weight models where internal states are accessible.</h1> <p>Hi Reddit,</p> <p>I am posting this as a pr…

报道来源 [1]

Claude 的潜在漏洞：来自 Gemma-3-12B 的行为效应和隐藏状态证据

相关实体

相关话题