一位独立评估者花费了超过1.1万美元测试Anthropic的Claude Fable 5模型,期望其表现优于GPT-5.5。然而,该模型表现出高拒绝率,导致在WolfBench基准测试中的13项特定任务上出现超时和失败。这种过度的拒绝行为,尽管旨在提高安全性,却阻碍了模型在代理工作流中的表现,导致其消耗大量token并无法完成Claude Opus和GPT-5.5等其他模型可以解决的任务。 AI
影响 LLM代理中过度的安全拒绝会导致token浪费和任务失败,尽管具备强大的潜在能力,但会阻碍实际应用。
排序理由 对特定模型在基准测试中表现的独立评估,详细说明了其优缺点。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →