研究人员开发了一种名为MC-PDD的新方法,用于检测特定数据集是否被用于大型语言模型的预训练,即使是对于黑盒、闭源模型也是如此。该技术受掩码语言建模的启发,通过掩盖token并评估模型的预测准确性来确定数据包含情况。MC-PDD在仅通过标准API访问的情况下,性能与现有方法相当,可用于模型审计和版权验证等应用。 AI
影响 仅通过API访问即可实现对LLM训练数据的审计和数据版权的验证。
排序理由 该集群包含一篇详细介绍LLM中预训练数据检测新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →