实体 MBABench

MBABench

PulseAugur coverage of MBABench — every cluster mentioning MBABench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_79936 · Jun 9 · 04:00

新基准显示大型语言模型代理在复杂的金融电子表格任务上表现不佳

研究人员推出 MBABench，这是一个旨在评估大型语言模型 (LLM) 代理在金融行业复杂、端到端电子表格任务上的新基准。该基准评估代理在财务建模、预测和场景分析方面创建完整电子表格的能力，重点关注准确性、公式质量和格式。虽然 Anthropic 的 Claude 系列模型表现最佳，但即使是表现最好的代理在应对日益复杂的任务时，也难以始终达到专业的金融标准，这表明当前的大型语言模型代理尚未准备好应对要求严苛的实际金融工作流程。