English(EN) Spent $11k evaluating Fable: capability looked SOTA, refusals killed it (before Anthropic did)

Anthropic的Claude Fable 5在代理测试中因过度拒绝而受阻

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 17:11

一位独立评估者花费了超过1.1万美元测试Anthropic的Claude Fable 5模型，期望其表现优于GPT-5.5。然而，该模型表现出高拒绝率，导致在WolfBench基准测试中的13项特定任务上出现超时和失败。这种过度的拒绝行为，尽管旨在提高安全性，却阻碍了模型在代理工作流中的表现，导致其消耗大量token并无法完成Claude Opus和GPT-5.5等其他模型可以解决的任务。 AI

影响 LLM代理中过度的安全拒绝会导致token浪费和任务失败，尽管具备强大的潜在能力，但会阻碍实际应用。

排序理由对特定模型在基准测试中表现的独立评估，详细说明了其优缺点。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/ClaudeAI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/ClaudeAI TIER_2 English(EN) · /u/WolframRavenwolf · 2026-06-16 17:11

Spent $11k evaluating Fable: capability looked SOTA, refusals killed it (before Anthropic did)

<div class="md"><p>Before its suspension, I spent $11,081.12 evaluating Claude Fable 5 on WolfBench, an agentic benchmark based on Terminal-Bench 2.0. It was by far my most expensive benchmark run ever, and I fully expected Fable to become the new top model and det…

报道来源 [1]

Spent $11k evaluating Fable: capability looked SOTA, refusals killed it (before Anthropic did)

相关实体

相关话题