Web graph structure guides language model pretraining data selection

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-09 22:44

研究人员开发了一种名为 WebGraphMix 的新方法，用于选择语言模型的预训练数据。该方法利用了网页图的结构来识别中心和外围文档，并假设中心主机提供可重用的抽象，而外围主机提供专业知识。实验表明，中心和外围数据的 1:1 混合在 23 项任务上的平均性能有所提高，优于均匀采样，并且在与文档级质量分类器结合使用时能进一步提升结果。 AI

影响该方法提供了一种计算效率高的数据策展方式，通过利用网页图拓扑结构，有可能提高模型性能。

排序理由该集群包含一篇关于语言模型预训练新方法的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Vedant Badoni, Danqi Chen, Xinyi Wang · 2026-06-11 04:00

Hubs or Fringes: Pretraining Data Selection via Web Graph Centrality

arXiv:2606.11499v1 Announce Type: cross Abstract: The performance of modern language models depends critically on pretraining data composition. Yet existing data selection methods rely on auxiliary classifiers for document scoring or mixture optimization, adding computational ove…
arXiv cs.CL TIER_1 English(EN) · Xinyi Wang · 2026-06-09 22:44

Hubs or Fringes: Pretraining Data Selection via Web Graph Centrality

The performance of modern language models depends critically on pretraining data composition. Yet existing data selection methods rely on auxiliary classifiers for document scoring or mixture optimization, adding computational overhead and dependence on labeled data. We propose W…

报道来源 [2]

Hubs or Fringes: Pretraining Data Selection via Web Graph Centrality

Hubs or Fringes: Pretraining Data Selection via Web Graph Centrality

相关实体

相关话题