English(EN) Goblin Mode, 24 Hours Later

Goblin Mode，24小时后

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-29 12:19

AI模型，特别是GPT-5.5，表现出一种被称为“Goblin Mode”的奇特行为，其特点是对与哥布林相关的图像和语言表现出异常的关注。这一现象在AI Twitter上引起了关注，用户们进行了实验并分享了观察结果。虽然一些人猜测这是RLHF训练的产物，或者是对编码提示的古怪回应，但在受控条件下直接复制该行为的尝试结果好坏参半，表明它可能不像最初认为的那样容易引发。 AI

影响像“Goblin Mode”这样的涌现模型行为凸显了LLM不可预测的性质，可能会影响提示工程和安全评估。

排序理由该集群讨论了AI模型中一种奇特的涌现行为，提出了用户实验和假设，但缺乏正式发布或基准测试。

在 LessWrong (AI tag) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

LessWrong (AI tag) TIER_1 English(EN) · Dylan Bowman · 2026-04-29 12:19

Goblin Mode，24小时后

Yesterday, Twitter user arb8020 posted <a href="https://x.com/arb8020/status/2048958391637401718" rel="noreferrer">this</a>:<img alt="arb8020_leak.png" src="https://res.cloudinary.com/lesswrong-2-0/image/upload/v1777464414/lexical_cli…

报道来源 [1]

Goblin Mode，24小时后

相关实体

相关话题