研究人员开发了一种名为 WebGraphMix 的新方法,用于选择语言模型的预训练数据。该方法利用了网页图的结构来识别中心和外围文档,并假设中心主机提供可重用的抽象,而外围主机提供专业知识。实验表明,中心和外围数据的 1:1 混合在 23 项任务上的平均性能有所提高,优于均匀采样,并且在与文档级质量分类器结合使用时能进一步提升结果。 AI
影响 该方法提供了一种计算效率高的数据策展方式,通过利用网页图拓扑结构,有可能提高模型性能。
排序理由 该集群包含一篇关于语言模型预训练新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →