English(EN) The Stanford EDGAR Filings Dataset: Reconstructing U.S. Corporate and Financial Disclosures into Layout-Faithful and Token-Efficient Pretraining Data

斯坦福发布 1520 亿 token 的金融 LLM 训练数据集

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-16 17:22

研究人员推出了斯坦福 EDGAR 备案数据集 (SEFD)，这是一个新的开源语料库，旨在为大型语言模型（尤其是在金融领域）提供干净、长上下文的文档。该数据集将 SEC 备案文件重建为忠实于布局的格式，使其适用于金融语言建模，并支持预测和文档理解等任务。SEFD-v1 是初始版本，包含 1520 亿 token，而更大的存档估计为 5500 亿 token。该项目还推出了两个新基准 EDGAR-Forecast 和 EDGAR-OCR，用于评估金融预测和复杂表格转录能力。 AI

影响提供了一个大型的专业数据集，以提高 LLM 在金融任务和文档理解方面的性能。

排序理由该集群描述了一个新的学术数据集及相关基准的发布，用于人工智能研究。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Nick Bettencourt, Xiaowei Ding, Kay Giesecke · 2026-06-17 04:00

斯坦福大学EDGAR文件数据集：将美国公司和财务披露重建为布局忠实且令牌高效的预训练数据

arXiv:2606.18192v1 Announce Type: new Abstract: As high-quality public web corpora become increasingly exhausted, clean long-context documents have become a scarce and expensive source of training data for large language models (LLMs). Existing long-context corpora are often prop…
arXiv cs.AI TIER_1 English(EN) · Kay Giesecke · 2026-06-16 17:22

斯坦福大学EDGAR备案数据集：将美国公司和财务披露重建为布局忠实且令牌高效的预训练数据

As high-quality public web corpora become increasingly exhausted, clean long-context documents have become a scarce and expensive source of training data for large language models (LLMs). Existing long-context corpora are often proprietary and costly to acquire, synthetically gen…

报道来源 [2]

斯坦福大学EDGAR文件数据集：将美国公司和财务披露重建为布局忠实且令牌高效的预训练数据

斯坦福大学EDGAR备案数据集：将美国公司和财务披露重建为布局忠实且令牌高效的预训练数据

相关实体

相关话题