English(EN) Cyber conversation "guardrails" are absurdly over the top

Anthropic 的 Claude 模型因过于严格的安全护栏而受到批评

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-09 21:49

一位用户对 Anthropic 的 Claude 模型表示沮丧，认为其安全护栏过于严格。用户指出，即使是试图了解其安全触发因素的提示，该模型也会拒绝参与，这阻碍了他们为控制目标制定描述性框架的能力。 AI

影响凸显了当前 AI 安全实施可能带来的用户摩擦。

排序理由用户对模型行为发表意见。

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/Anthropic TIER_1 English(EN) · /u/LiminalWanderings · 2026-06-09 21:49

网络对话的“护栏”简直是荒谬的过度

<div class="md"><p>Just a minor vent: Trying to build a language lexicon/class framework for describing control objectives without any operational details - really generic stuff. Fable pauses/changes models even for "Can you give me insight into what about the…