Anthropic 的新 Claude Fable 5 模型最初因其广泛的安全护栏而将用户提出的安全审查请求标记为潜在不安全。该模型没有直接阻止用户,而是将请求转至 Opus 4.8,后者随后完成了安全审查。这次经历凸显了该模型在处理模糊任务时的保守方法,以及在新安全措施实施时回退模型的重要性。 AI
影响 新模型的安全护栏最初可能会给合法任务带来阻碍,需要回退机制。
排序理由 前沿实验室模型发布,附带系统卡。[lever_c 从 frontier_release 降级:ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →