研究人员推出了斯坦福 EDGAR 备案数据集 (SEFD),这是一个新的开源语料库,旨在为大型语言模型(尤其是在金融领域)提供干净、长上下文的文档。该数据集将 SEC 备案文件重建为忠实于布局的格式,使其适用于金融语言建模,并支持预测和文档理解等任务。SEFD-v1 是初始版本,包含 1520 亿 token,而更大的存档估计为 5500 亿 token。该项目还推出了两个新基准 EDGAR-Forecast 和 EDGAR-OCR,用于评估金融预测和复杂表格转录能力。 AI
影响 提供了一个大型的专业数据集,以提高 LLM 在金融任务和文档理解方面的性能。
排序理由 该集群描述了一个新的学术数据集及相关基准的发布,用于人工智能研究。
- Common Crawl
- EDGAR-Forecast
- EDGAR-OCR
- Stanford EDGAR Filings Dataset
- Stanford
- EDGAR
- Nick Bettencourt
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →