PulseAugur
实时 18:11:19
English(EN) Identifying AI Web Scrapers Using Canary Tokens

新方法使用唯一令牌识别 LLM 网页抓取器

研究人员开发了一种新颖的方法,可以自动识别哪些大型语言模型 (LLM) 被特定的网页抓取器喂养数据。该技术涉及托管动态网站,为每个访问的抓取器提供唯一的“金丝雀令牌”。通过提示 LLM 并观察它们是否持续生成包含这些唯一令牌的输出,研究人员可以推断出哪些抓取器正在向哪些 LLM 提供数据。对 22 个生产 LLM 系统进行的实验证明了该方法在识别先前未知的抓取器-LLM 连接方面的可靠性,为非特权第三方提供了一种了解数据来源并可能控制不受欢迎的抓取的方法。 AI

影响 提供了一种识别 LLM 数据源的方法,可能有助于更好地控制网页抓取和数据来源。

排序理由 该集群包含一篇详细介绍新研究方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新方法使用唯一令牌识别 LLM 网页抓取器

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Emily Wenger ·

    Identifying AI Web Scrapers Using Canary Tokens

    From pre-training to query-time augmentation, web-scraped data helps to improve the quality and contextual relevancy of content generated by large language models (LLMs). However, large-scale web scraping to feed LLMs can affect site stability and raise legal, privacy, or ethics …