PulseAugur
实时 14:03:21
English(EN) The Stanford EDGAR Filings Dataset: Reconstructing U.S. Corporate and Financial Disclosures into Layout-Faithful and Token-Efficient Pretraining Data

斯坦福发布 1520 亿 token 的金融 LLM 训练数据集

研究人员推出了斯坦福 EDGAR 备案数据集 (SEFD),这是一个新的开源语料库,旨在为大型语言模型(尤其是在金融领域)提供干净、长上下文的文档。该数据集将 SEC 备案文件重建为忠实于布局的格式,使其适用于金融语言建模,并支持预测和文档理解等任务。SEFD-v1 是初始版本,包含 1520 亿 token,而更大的存档估计为 5500 亿 token。该项目还推出了两个新基准 EDGAR-ForecastEDGAR-OCR,用于评估金融预测和复杂表格转录能力。 AI

影响 提供了一个大型的专业数据集,以提高 LLM 在金融任务和文档理解方面的性能。

排序理由 该集群描述了一个新的学术数据集及相关基准的发布,用于人工智能研究。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

斯坦福发布 1520 亿 token 的金融 LLM 训练数据集

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Nick Bettencourt, Xiaowei Ding, Kay Giesecke ·

    斯坦福大学EDGAR文件数据集:将美国公司和财务披露重建为布局忠实且令牌高效的预训练数据

    arXiv:2606.18192v1 Announce Type: new Abstract: As high-quality public web corpora become increasingly exhausted, clean long-context documents have become a scarce and expensive source of training data for large language models (LLMs). Existing long-context corpora are often prop…

  2. arXiv cs.AI TIER_1 English(EN) · Kay Giesecke ·

    斯坦福大学EDGAR备案数据集:将美国公司和财务披露重建为布局忠实且令牌高效的预训练数据

    As high-quality public web corpora become increasingly exhausted, clean long-context documents have become a scarce and expensive source of training data for large language models (LLMs). Existing long-context corpora are often proprietary and costly to acquire, synthetically gen…