English(EN) I scraped over 2 million job postings across 100,000+ company career sites into a unified, daily-updated dataset. [P]

开发者发布免费数据集，包含来自公司网站的 200 万多份职位发布信息

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 07:14

一位开发者创建并发布了一个免费数据集，其中包含直接从 100,000 多个公司招聘网站抓取的 200 多万份职位发布信息。该数据集每日更新，旨在比单一招聘网站的聚合列表提供更清晰、更及时的就业市场视图。数据以 Parquet 格式提供，并包含职位名称、公司名称和地点等核心字段。 AI

影响为分析 AI 和科技就业市场趋势提供了一个大型、干净的数据集。

排序理由该集群描述了一个为研究目的创建和发布的新颖数据集。[lever_c_demoted from research: ic=1 ai=0.7]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/MachineLearning TIER_1 English(EN) · /u/Invicto_50 · 2026-06-02 07:14

我抓取了超过200万份职位发布，覆盖10万多家公司的招聘网站，并将其整理成一个统一的、每日更新的数据集。[P]

<div class="md"><p>Over the past few months, I've been working on a high-scale scraping pipeline to aggregate listings directly from company job boards and applicant tracking systems. Mapping over 100,000 distinct companies to their career pages turned out to be a …