Common Crawl · PulseAugur

CrawlGraph 为 AI 代理推出免费反向链接 API 级别

CrawlGraph 推出了其反向链接 API 的免费级别，每月提供 15 次调用，使用 Common Crawl 的开放超链接图数据。这个新级别允许用户访问约 1.2 亿个域名和 44 亿个链接的反向链接配置文件，无需注册或付款。通过电子邮件发送的 API 密钥也可以集成到 Claude 和 Cursor 等 AI 代理中，在对话中提供反向链接信息。

RESEARCH · CL_95813 · Jun 16 · 17:22

斯坦福发布 1520 亿 token 的金融 LLM 训练数据集

研究人员推出了斯坦福 EDGAR 备案数据集 (SEFD)，这是一个新的开源语料库，旨在为大型语言模型（尤其是在金融领域）提供干净、长上下文的文档。该数据集将 SEC 备案文件重建为忠实于布局的格式，使其适用于金融语言建模，并支持预测和文档理解等任务。SEFD-v1 是初始版本，包含 1520 亿 token，而更大的存档估计为 5500 亿 token。该项目还推出了两个新基准 EDGAR-Forecast 和 EDGAR-OCR，…

COMMENTARY · CL_88138 · Jun 12 · 19:40

《Pokémon Go》数据用于无人机导航，包括军事用途

据报道，Niantic 的地理空间模型最初使用《Pokémon Go》玩家扫描 PokéStop 的数据进行训练，现正被用于无人机导航，包括军事应用。尽管 Niantic 表示只有模型的早期版本使用了这些数据，并且 PokéStop 扫描功能最近已停用，但关于该数据最终用途以及该功能停用时机的疑问仍然存在。

RESEARCH · CL_84477 · Jun 9 · 22:44

Web graph structure guides language model pretraining data selection

研究人员开发了一种名为 WebGraphMix 的新方法，用于选择语言模型的预训练数据。该方法利用了网页图的结构来识别中心和外围文档，并假设中心主机提供可重用的抽象，而外围主机提供专业知识。实验表明，中心和外围数据的 1:1 混合在 23 项任务上的平均性能有所提高，优于均匀采样，并且在与文档级质量分类器结合使用时能进一步提升结果。

COMMENTARY · CL_91578 · Jun 9 · 14:30

AI 透明度辩论：“开放权重”不足，需要数据和价值洞察

文章《开放权重，封闭思想：AI 透明度究竟需要什么》认为，仅发布模型权重（一种被称为“开放权重”的做法）不足以实现真正的 AI 透明度。虽然这允许用户在不依赖企业云的情况下本地运行模型，但它模糊了关于训练数据、微调过程和嵌入价值观的关键细节。作者将此与 OLMo 和 Pythia 等真正开放的 AI 项目进行了对比，这些项目提供了对其训练数据和管道的完全可见性，并指出商业压力常常阻碍这种透明度。文章强调，像 Common Crawl …

COMMENTARY · CL_73782 · Jun 5 · 17:46

Microsoft AI数据中心计划面临抗议，模型数据受质疑

在Microsoft的Build 2026大会上，其AI数据中心计划引发了抗议，主要关注电力消耗、用水量和社区批准问题。与此同时，该公司的MAI-Thinking-1模型因使用Common Crawl和公共网络数据进行训练而受到审查，尽管其声称使用了干净、已授权的数据。

COMMENTARY · CL_73276 · Jun 5 · 12:10

Microsoft MAI 模型使用未经许可的网络数据进行训练

据报道，Microsoft 使用未经许可的网络数据训练了其 MAI 模型，这与其公开声称仅使用“企业级、干净且已获商业许可的数据”的说法相矛盾。该公司的做法与其他 AI 实验室类似，依赖于合理使用原则，并将数据收集的选择权留给网站所有者。

TOOL · CL_71479 · Jun 4 · 15:48

AI爬虫检查器解析10个主要AI爬虫的robots.txt

一款名为AI爬虫检查器的新工具已被开发出来，用于分析主要的AI爬虫如何与网站的robots.txt文件进行交互。该工具能够识别特定的AI爬虫，如OpenAI的GPTBot或Google的Google-Extended，是否被允许、屏蔽或部分屏蔽访问内容。该检查器解析robots.txt中复杂的指令，区分完全站点屏蔽和特定路径限制，从而提供对爬虫访问更细致的理解。

RESEARCH · CL_72542 · Jun 4 · 09:38

研究发现：语言模型过滤器导致认识论不公

一篇新发表在arXiv上的研究论文详细介绍了语言模型中的预训练过滤器和护栏如何导致认识论不公。审计发现，这些系统不成比例地标记与边缘化群体相关的内容，例如跨性别者、女性和中美洲人，但却常常未能检测到露骨的仇恨言论或私人信息。人工标注者会保留这些自动化系统标记的大部分内容，这凸显了它们在捕捉细微的代表性伤害方面的能力差距。

TOOL · CL_65895 · Jun 2 · 04:00

新的日本图像文本数据集提升AI文化理解能力

研究人员推出了WAON，这是一个大规模的日本图像文本数据集，包含约1.55亿个来自日本本土网络内容的示例。该数据集旨在提高对比视觉语言模型的文化理解能力。同时，他们开发了WAON-Bench，一个包含374个类别的精选日本文化理解基准。实验表明，在WAON上微调的模型在执行日本文化任务时，其表现优于在翻译的英文数据上训练的模型。

TOOL · CL_64275 · Jun 1 · 19:06

Claude Code 通过新代理程序自动化竞争对手反向链接分析

一位开发人员创建了一种使用 AI 助手 Claude Code 来查找竞争对手反向链接的方法。此过程自动化了搜索链接到竞争对手但未链接到自己网站的网站的繁琐任务。该系统利用了一个名为 crawlgraph-mcp 的开源工具，该工具访问公共 Web 图数据，以识别和排名潜在的推广目标，甚至起草初步的电子邮件推广信息。

TOOL · CL_62054 · May 31 · 21:44

开发者将反向链接API与AI集成以进行SEO差距分析

一位开发者创建了一个新工具，将反向链接API与MCP（模型中心编程）服务器集成，从而可以直接在Claude等AI模型中进行SEO差距分析。该设置允许用户描述他们的SEO目标并获得可操作的见解，例如识别未链接到他们自己网站的竞争对手反向链接。该工具处理来自Common Crawl的超链接网络图的数据，并包含原始API端点以及一个更具主观性的复合工具，用于过滤和排名外展目标。

COMMENTARY · CL_59368 · May 29 · 10:48

AI爬虫无视robots.txt，尝试扫描数据库

观察到包括Anthropic的Claude和OpenAI的GPT机器人等在内的多个AI驱动的网络爬虫，无视robots.txt指令并试图扫描数据库。这些机器人，以及来自百度、亚马逊、Meta和Yandex的其他机器人，均被服务器管理员阻止。管理员表示沮丧，称这些大公司试图窃取资源，并且这些机器人的同时涌现可能导致服务器无法使用，并引用了他们PieFed服务器最近的一次事件。

TOOL · CL_38293 · May 18 · 12:52

Infini-News 提供对13亿条新闻文章的快速搜索

研究人员开发了Infini-News，这是一个工具包和索引，旨在提供对Common Crawl存档中超过13亿条新闻文章的高效访问。该新资源包括每篇文章的清理文本、结构化元数据、语言检测和地理归属。该系统利用Infini-gram索引，使研究人员能够在一秒钟内搜索整个存档中的文本模式，从而促进大规模媒体研究。

TOOL · CL_35213 · May 17 · 04:42

FutureSim 基准测试使用历史数据评估 AI 预测能力

来自马克斯·普朗克研究所的研究人员推出了 FutureSim，这是一个新的基准测试，旨在评估 AI 代理仅使用历史网络数据预测现实世界事件的能力。该方法可防止代理访问未来信息，模拟更真实的预测场景。使用 Codex harness 中的 GPT-5.5 等模型进行的早期测试在超级碗等一些市场中表现强劲，但在英国大选和格莱美奖等其他市场中表现不佳，表明其能力狭隘。

SIGNIFICANT · CL_29627 · May 11 · 22:37

Elsevier 因 AI 训练数据起诉 Meta，指控侵犯版权

学术出版巨头 Elsevier 与其他出版商和作者一起，已对 Meta 提起诉讼，指控该公司非法抓取并使用受版权保护的研究论文来训练其 Llama 大型语言模型。原告声称，Meta 通过 Common Crawl 数据集，以及更直接地通过 LibGen 和 Sci-Hub 等臭名昭著的盗版平台获取了这些论文。Meta 则援引“合理使用”原则为其辩护，认为将受版权保护的材料用于 AI 训练构成衍生性使用并促进创新，并引用了此前允许 An…

RESEARCH · CL_14409 · May 4 · 04:00

研究发现：LLM生成内容在网络上的占比迅速增长

一项新的研究论文介绍了一个名为DeGenTWeb的系统，该系统旨在系统地识别由大型语言模型（LLMs）生成内容占主导地位且人工监督极少的网站。研究发现，LLM主导的网站在网络上出乎意料地普遍，在Common Crawl数据和Bing搜索结果中都频繁出现，并且其比例正在增加。研究还强调了准确检测LLM生成内容的难度，因为当前的检测方法在尽量减少错误归因方面的表现不如宣传的那样好。

SIGNIFICANT · CL_13263 · May 2 · 20:29

新闻出版商要求 Common Crawl 阻止 AI 训练使用其内容

新闻出版商要求 Common Crawl 停止未经授权抓取网络内容，并阻止 AI 公司使用这些数据进行模型训练。News/Media Alliance 已正式向 Common Crawl 传达了这一要求，强调了数据隐私和版权材料使用方面的担忧。

RESEARCH · CL_04516 · Apr 26 · 23:52

Google 警告 AI 提示注入攻击日益增多且不够复杂

Google Threat Intelligence 的研究人员发现，针对浏览网络的 AI 系统的间接提示注入攻击有所增加。虽然其中许多攻击目前技术含量不高且无害，但已发现了一些恶意利用。研究人员分析了 Common Crawl 的数据以揭示这些活动，凸显了 AI 代理面临的新安全挑战。

TOOL · CL_17378 · Apr 24 · 06:48

交互式指南解释了像 ChatGPT 这样的大型语言模型是如何构建的

一个基于 Andrej Karpathy 讲座的新交互式可视化指南，解释了构建大型语言模型的复杂过程。它详细介绍了从收集大量互联网文本到最终进行分词以供神经网络处理的整个过程。该指南强调了数据质量和多样性在训练中的关键作用，并重点介绍了过滤、去重和移除个人身份信息等步骤，以创建像 FineWeb 这样高质量的数据集。