PulseAugur
实时 11:48:17
English(EN) MBABench: Evaluating LLM Agents on End-to-End Spreadsheet Tasks in Finance

新基准显示大型语言模型代理在复杂的金融电子表格任务上表现不佳

研究人员推出 MBABench,这是一个旨在评估大型语言模型 (LLM) 代理在金融行业复杂、端到端电子表格任务上的新基准。该基准评估代理在财务建模、预测和场景分析方面创建完整电子表格的能力,重点关注准确性、公式质量和格式。虽然 AnthropicClaude 系列模型表现最佳,但即使是表现最好的代理在应对日益复杂的任务时,也难以始终达到专业的金融标准,这表明当前的大型语言模型代理尚未准备好应对要求严苛的实际金融工作流程。 AI

影响 凸显了当前大型语言模型代理在复杂金融任务方面的能力局限性,表明在这一领域广泛的企业应用之前需要进一步发展。

排序理由 该集群包含一篇介绍用于评估大型语言模型代理的新基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Thomson Yen, Julian Poeltl, Harshith Srinivas Gear, Yilin Meng, Joshua Fan, Adam Shen, Yili Liu, Ali Bauyrzhan, Siri Du, Haoyang Liu, Daniel Guetta, Hongseok Namkoong ·

    MBABench:在金融领域评估LLM智能体端到端电子表格任务的表现

    arXiv:2605.22664v2 Announce Type: replace Abstract: LLM agents are increasingly expected to carry out end-to-end workflows, producing complete artifacts from high-level user instructions. To meet enterprise needs, frontier AI labs have developed agents that can construct entire s…