发布新的网页内容提取基准数据集

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-20 12:28

研究人员发布了网页内容提取基准（WCXB）数据集，旨在改进用于从网页中提取主要内容的系统的评估。WCXB数据集包含来自1613个域的2008个网页，涵盖了新闻文章之外的七种不同页面类型。在此基准上的评估显示，提取系统在性能上存在显著差异，尤其是在结构化页面类型上，突显了现有以文章为中心的基准的局限性。 AI

影响为网页内容提取系统提供了更全面的评估，这对于LLM训练和RAG至关重要。

排序理由该集群包含一篇介绍特定NLP任务新基准数据集的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Murrough Foley · 2026-05-20 12:28

WCXB：一种多类型网页内容提取基准

Web content extraction - isolating a page's main content from surrounding boilerplate - is a prerequisite for search indexing, retrieval-augmented generation, NLP dataset construction, and large language model training. Progress in this area has been constrained by the limitation…

报道来源 [1]

WCXB：一种多类型网页内容提取基准

相关实体

相关话题