PulseAugur
实时 03:28:38
实体 HuggingFaceFW/fineweb

HuggingFaceFW/fineweb

PulseAugur coverage of HuggingFaceFW/fineweb — every cluster mentioning HuggingFaceFW/fineweb across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
0
90 天内 0
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_90556 ·

    FineWeb 数据集:网络语料库分析实践教程

    本教程提供了关于使用 FineWeb 数据集(一个大规模网络语料库)的实践指南。它演示了如何流式处理和分析数据集样本,包括使用 GPT-2 分词器等工具进行过滤、去重和分词。该指南还涵盖了分析 URL、语言和词元计数等元数据,以及实现类似于 C4 等数据集所用质量过滤流程。