PulseAugur
实时 21:08:16

发布新的网页内容提取基准数据集

研究人员发布了网页内容提取基准(WCXB)数据集,旨在改进用于从网页中提取主要内容的系统的评估。WCXB数据集包含来自1613个域的2008个网页,涵盖了新闻文章之外的七种不同页面类型。在此基准上的评估显示,提取系统在性能上存在显著差异,尤其是在结构化页面类型上,突显了现有以文章为中心的基准的局限性。 AI

影响 为网页内容提取系统提供了更全面的评估,这对于LLM训练和RAG至关重要。

排序理由 该集群包含一篇介绍特定NLP任务新基准数据集的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

发布新的网页内容提取基准数据集

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Murrough Foley ·

    WCXB:一种多类型网页内容提取基准

    Web content extraction - isolating a page's main content from surrounding boilerplate - is a prerequisite for search indexing, retrieval-augmented generation, NLP dataset construction, and large language model training. Progress in this area has been constrained by the limitation…