PulseAugur
实时 00:45:46
实体 BankerToolBench

BankerToolBench

PulseAugur coverage of BankerToolBench — every cluster mentioning BankerToolBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_04389 ·

    GPT-5.4 和 Claude Opus 4.6 在银行业基准测试中失败,客户就绪输出得分为 0%

    一项名为 BankerToolBench 的新基准测试揭示了当前大型语言模型在应用于金融任务时存在的显著缺陷。GPT-5.4、Claude Opus 4.6 及其他模型在模拟初级投资银行业务方面接受了测试。尽管 GPT-5.4 显示出最大的潜力,但没有一个模型产生的输出被认为是客户就绪的,这表明人工智能能力与现实世界金融应用需求之间存在巨大差距。