PulseAugur
实时 14:43:55
实体 DataComp-LM

DataComp-LM

PulseAugur coverage of DataComp-LM — every cluster mentioning DataComp-LM across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_84477 ·

    Web graph structure guides language model pretraining data selection

    研究人员开发了一种名为 WebGraphMix 的新方法,用于选择语言模型的预训练数据。该方法利用了网页图的结构来识别中心和外围文档,并假设中心主机提供可重用的抽象,而外围主机提供专业知识。实验表明,中心和外围数据的 1:1 混合在 23 项任务上的平均性能有所提高,优于均匀采样,并且在与文档级质量分类器结合使用时能进一步提升结果。