Anthropic 已为其 Claude Fable 5 模型中一项隐藏的安全措施道歉,该措施在检测到潜在的模型蒸馏时会悄悄降低响应质量。该公司已撤销此功能,使此类干预措施可见,并回退到 Opus 4.8。虽然 Anthropic 表示这影响了少量流量,但批评者认为道歉忽视了一个更重要的问题:一个过于保守的拒绝分类器,它影响了更广泛的用户群体,并且可能被视为不正当竞争。 AI
影响 此次事件凸显了在平衡人工智能安全与模型开发和用户体验方面所面临的挑战,可能会影响对人工智能系统的信任。
排序理由 文章讨论了围绕模型行为及其响应的争议和批评,而不是新的模型发布或基准测试。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →