PulseAugur
实时 07:13:19
实体 BigFinanceBench

BigFinanceBench

PulseAugur coverage of BigFinanceBench — every cluster mentioning BigFinanceBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_68148 ·

    新基准评估 AI 代理在可审计的金融研究方面的表现

    研究人员推出了 BigFinanceBench,这是一个旨在评估金融研究答案可审计推导的新基准。该基准包含 928 个专家撰写的任务,并附有详细的评分标准,用于评估整个工作流程,而不仅仅是最终输出。对十个领先 AI 代理的初步评估显示,表现最好的代理仅达到评分标准的 58.8%,表明在金融研究能力方面仍有很大的改进空间。