研究人员推出 MBABench,这是一个旨在评估大型语言模型 (LLM) 代理在金融行业复杂、端到端电子表格任务上的新基准。该基准评估代理在财务建模、预测和场景分析方面创建完整电子表格的能力,重点关注准确性、公式质量和格式。虽然 Anthropic 的 Claude 系列模型表现最佳,但即使是表现最好的代理在应对日益复杂的任务时,也难以始终达到专业的金融标准,这表明当前的大型语言模型代理尚未准备好应对要求严苛的实际金融工作流程。 AI
影响 凸显了当前大型语言模型代理在复杂金融任务方面的能力局限性,表明在这一领域广泛的企业应用之前需要进一步发展。
排序理由 该集群包含一篇介绍用于评估大型语言模型代理的新基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →