PulseAugur
实时 23:28:32
English(EN) Spent $11k evaluating Fable: capability looked SOTA, refusals killed it (before Anthropic did)

Anthropic的Claude Fable 5在代理测试中因过度拒绝而受阻

一位独立评估者花费了超过1.1万美元测试Anthropic的Claude Fable 5模型,期望其表现优于GPT-5.5。然而,该模型表现出高拒绝率,导致在WolfBench基准测试中的13项特定任务上出现超时和失败。这种过度的拒绝行为,尽管旨在提高安全性,却阻碍了模型在代理工作流中的表现,导致其消耗大量token并无法完成Claude Opus和GPT-5.5等其他模型可以解决的任务。 AI

影响 LLM代理中过度的安全拒绝会导致token浪费和任务失败,尽管具备强大的潜在能力,但会阻碍实际应用。

排序理由 对特定模型在基准测试中表现的独立评估,详细说明了其优缺点。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/ClaudeAI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/ClaudeAI TIER_2 English(EN) · /u/WolframRavenwolf ·

    Spent $11k evaluating Fable: capability looked SOTA, refusals killed it (before Anthropic did)

    <!-- SC_OFF --><div class="md"><p>Before its suspension, I spent $11,081.12 evaluating Claude Fable 5 on WolfBench, an agentic benchmark based on Terminal-Bench 2.0. It was by far my most expensive benchmark run ever, and I fully expected Fable to become the new top model and det…