研究人员推出了 Fin-RATE,这是一个新的基准,旨在评估大型语言模型 (LLM) 使用 SEC 文件在真实世界金融分析任务上的表现。与之前的基准不同,Fin-RATE 评估 LLM 跨多个文档、报告期和公司实体综合信息的能力,并对其性能瓶颈进行分类,例如检索失败和生成不准确。对 17 个 LLM 的基准测试显示,随着任务变得更加复杂,性能显著下降,从单文档推理转向纵向和跨实体分析时,准确率下降了 18% 以上。 AI
影响 该基准将帮助开发人员识别和解决用于金融分析的 LLM 的特定弱点,从而可能在该领域带来更可靠的 AI 工具。
排序理由 该集群描述了一个用于评估 LLM 在金融任务上表现的新学术基准,已在 arXiv 上发布。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →