English(EN) Extracting memorized pieces of (copyrighted) books from open-weight language models

新技术揭示开放权重LLM可以记住整本受版权保护的书籍

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-05 04:00

arXiv上的一项新研究详细介绍了一种从开放权重语言模型中提取记忆书籍内容的方法。研究人员发现，虽然大多数模型不会广泛记忆大多数书籍，但存在显著的例外，例如 Llama 3.1 70B 完全记忆了《哈利·波特与魔法石》等部分书名。这种广泛的记忆允许使用最小的提示词来确定性地提取整本书籍，从而影响正在进行的版权纠纷。 AI

影响研究结果可能会影响关于记忆受版权保护材料的版权诉讼和模型训练实践。

排序理由学术论文，详细介绍了一种从LLM中提取记忆内容的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · A. Feder Cooper, Mark A. Lemley, Allison Casasola, Ahmed Ahmed, Aaron Gokaslan, Amy B. Cyphert, Christopher De Sa, Daniel E. Ho, Percy Liang · 2026-05-05 04:00

从开放权重语言模型中提取（受版权保护的）书籍的记忆片段

arXiv:2505.12546v5 Announce Type: replace Abstract: Plaintiffs and defendants in copyright lawsuits over generative AI often make sweeping, opposing claims about the extent to which large language models (LLMs) memorize protected expression from books in their training data. We s…

报道来源 [1]

从开放权重语言模型中提取（受版权保护的）书籍的记忆片段

相关实体

相关话题