PulseAugur
实时 22:15:43
实体 WolfBench

WolfBench

PulseAugur coverage of WolfBench — every cluster mentioning WolfBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
0
90 天内 0
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_95151 ·

    Anthropic的Claude Fable 5在代理测试中因过度拒绝而受阻

    一位独立评估者花费了超过1.1万美元测试Anthropic的Claude Fable 5模型,期望其表现优于GPT-5.5。然而,该模型表现出高拒绝率,导致在WolfBench基准测试中的13项特定任务上出现超时和失败。这种过度的拒绝行为,尽管旨在提高安全性,却阻碍了模型在代理工作流中的表现,导致其消耗大量token并无法完成Claude Opus和GPT-5.5等其他模型可以解决的任务。