PulseAugur
实时 15:39:39
实体 EDGAR-OCR

EDGAR-OCR

PulseAugur coverage of EDGAR-OCR — every cluster mentioning EDGAR-OCR across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_95813 ·

    斯坦福发布 1520 亿 token 的金融 LLM 训练数据集

    研究人员推出了斯坦福 EDGAR 备案数据集 (SEFD),这是一个新的开源语料库,旨在为大型语言模型(尤其是在金融领域)提供干净、长上下文的文档。该数据集将 SEC 备案文件重建为忠实于布局的格式,使其适用于金融语言建模,并支持预测和文档理解等任务。SEFD-v1 是初始版本,包含 1520 亿 token,而更大的存档估计为 5500 亿 token。该项目还推出了两个新基准 EDGAR-Forecast 和 EDGAR-OCR,…