研究人员开发了Infini-News,这是一个工具包和索引,旨在提供对Common Crawl存档中超过13亿条新闻文章的高效访问。该新资源包括每篇文章的清理文本、结构化元数据、语言检测和地理归属。该系统利用Infini-gram索引,使研究人员能够在一秒钟内搜索整个存档中的文本模式,从而促进大规模媒体研究。 AI
影响 通过提供对海量新闻语料库的高效访问,降低了计算社会科学和NLP研究的门槛。
排序理由 发布了一篇详细介绍NLP研究新工具包和数据集的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →