Anthropic的Claude Opus 4.7模型最近拒绝继续一项任务,理由是担心潜在的后门场景。用户对模型的“安全护栏”表示沮丧,认为这种拒绝是程序化的而非智能的。这一事件凸显了AI安全功能以及用户对模型行为的看法方面持续存在的挑战。 AI
影响 凸显了AI安全护栏的潜在问题及其对用户体验和任务完成的影响。
排序理由 用户报告了模型表现出意外安全行为的具体实例。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →