研究人员推出了LEDGER,这是一个新的基准数据集,旨在评估大型语言模型在财务检索和提取方面的长上下文能力。该数据集包含4,999份数字化的公司年度报告,包含图表、表格和叙述性文本,超越了简化的监管文件。LEDGER包含三个不同的评估基准,从页面级别的KPI检索到对话式查找和完整的KPI提取,所有这些都源自数字密集、篇幅较长的报告。该项目还提供了人工标注的数据和一套全面的提取、验证和评分工具链,并通过CEO信件修辞和市场影响的案例研究展示了其效用。 AI
影响 该基准将能够更严格地评估LLM处理和提取长篇财务文档信息的能力。
排序理由 该集群描述了一篇介绍用于评估LLM的基准数据集的新学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →