实体 WolfBench

WolfBench

PulseAugur coverage of WolfBench — every cluster mentioning WolfBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

0

90 天内 0

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_95151 · Jun 16 · 17:11

Anthropic的Claude Fable 5在代理测试中因过度拒绝而受阻

一位独立评估者花费了超过1.1万美元测试Anthropic的Claude Fable 5模型，期望其表现优于GPT-5.5。然而，该模型表现出高拒绝率，导致在WolfBench基准测试中的13项特定任务上出现超时和失败。这种过度的拒绝行为，尽管旨在提高安全性，却阻碍了模型在代理工作流中的表现，导致其消耗大量token并无法完成Claude Opus和GPT-5.5等其他模型可以解决的任务。