研究人员发布了网页内容提取基准(WCXB)数据集,旨在改进用于从网页中提取主要内容的系统的评估。WCXB数据集包含来自1613个域的2008个网页,涵盖了新闻文章之外的七种不同页面类型。在此基准上的评估显示,提取系统在性能上存在显著差异,尤其是在结构化页面类型上,突显了现有以文章为中心的基准的局限性。 AI
影响 为网页内容提取系统提供了更全面的评估,这对于LLM训练和RAG至关重要。
排序理由 该集群包含一篇介绍特定NLP任务新基准数据集的学术论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →