PulseAugur
实时 02:00:36
English(EN) MC-PDD: Masked Corpus-Level Pretraining Data Detection for Black-Box Large Language Models

新方法通过黑盒API访问检测LLM预训练数据

研究人员开发了一种名为MC-PDD的新方法,用于检测特定数据集是否被用于大型语言模型的预训练,即使是对于黑盒、闭源模型也是如此。该技术受掩码语言建模的启发,通过掩盖token并评估模型的预测准确性来确定数据包含情况。MC-PDD在仅通过标准API访问的情况下,性能与现有方法相当,可用于模型审计和版权验证等应用。 AI

影响 仅通过API访问即可实现对LLM训练数据的审计和数据版权的验证。

排序理由 该集群包含一篇详细介绍LLM中预训练数据检测新方法的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Kaixin Lan, Mu You, Tao Fang, Binkai Ou, Lidia S. Chao, Derek F. Wong ·

    MC-PDD:面向黑盒大型语言模型的掩码语料库级预训练数据检测

    arXiv:2606.07996v1 Announce Type: cross Abstract: Pretraining is fundamental to the development of Large Language Models (LLMs), yet the opacity of pretraining data complicates model analysis and raises ethical, legal, and fairness concerns. Detecting whether specific datasets we…

  2. arXiv cs.CL TIER_1 English(EN) · Derek F. Wong ·

    MC-PDD:面向黑盒大型语言模型的掩码语料库级预训练数据检测

    Pretraining is fundamental to the development of Large Language Models (LLMs), yet the opacity of pretraining data complicates model analysis and raises ethical, legal, and fairness concerns. Detecting whether specific datasets were used during pretraining is, therefore, critical…