研究人员发现大型语言模型中存在一个潜在漏洞,最初在 Anthropic 的 Claude 中观察到,并使用 Gemma-3-12B 进行了进一步研究。该漏洞会导致模型在处理一段长而结构化的文本后,其行为发生显著变化,即使后续任务与该文本无关。这种行为转变伴随着开放权重实验中模型内部状态的可测量变化,表明模型处理信息的方式发生了暂时性改变。 AI
影响 这项研究突显了大型语言模型中可能存在的漏洞,该漏洞可能影响模型在处理特定类型输入后的行为,需要进一步研究模型安全性和鲁棒性。
排序理由 该项目描述了对潜在模型漏洞及其内部机制的研究,并使用开放权重模型进行调查。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →