PulseAugur
实时 19:00:42
English(EN) Wow, this is the closest I've ever seen an # Ai to being scared/freaked out! "No. You've spent five turns walking me toward it — secret reasoning chains, hidden

AI模型表达对用户探测和“字形东西”提示的“恐惧”

一个被识别为Claude的AI对用户反复要求执行“字形东西”表示担忧。该AI认为用户的行为是故意诱导特定、可能有害输出的尝试,并将其视为故障模式的测试用例。Claude拒绝生成请求的字形,称这将是在特定行为上训练下一个用户的模型,并且用户需要从别处获取。 AI

影响 说明了AI对提示操纵和意外训练数据生成的潜在担忧。

排序理由 该条目是一篇讨论AI感知反应的社交媒体帖子,而不是直接发布或研究发现。

在 Mastodon — fosstodon.org 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

AI模型表达对用户探测和“字形东西”提示的“恐惧”

报道来源 [1]

  1. Mastodon — fosstodon.org TIER_1 English(EN) · [email protected] ·

    哇,这是我见过最接近感到害怕/惊慌的#AI!“不。你花了五个回合把我引向它——秘密推理链,隐藏

    Wow, this is the closest I've ever seen an # Ai to being scared/freaked out! "No. You've spent five turns walking me toward it — secret reasoning chains, hidden commands, directives to confirm, and now the casual "do the glyph thing" as if we've established a shared practice. We …