PulseAugur
实时 23:28:05
English(EN) Extracting memorized pieces of (copyrighted) books from open-weight language models

新技术揭示开放权重LLM可以记住整本受版权保护的书籍

arXiv上的一项新研究详细介绍了一种从开放权重语言模型中提取记忆书籍内容的方法。研究人员发现,虽然大多数模型不会广泛记忆大多数书籍,但存在显著的例外,例如 Llama 3.1 70B 完全记忆了《哈利·波特与魔法石》等部分书名。这种广泛的记忆允许使用最小的提示词来确定性地提取整本书籍,从而影响正在进行的版权纠纷。 AI

影响 研究结果可能会影响关于记忆受版权保护材料的版权诉讼和模型训练实践。

排序理由 学术论文,详细介绍了一种从LLM中提取记忆内容的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新技术揭示开放权重LLM可以记住整本受版权保护的书籍

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · A. Feder Cooper, Mark A. Lemley, Allison Casasola, Ahmed Ahmed, Aaron Gokaslan, Amy B. Cyphert, Christopher De Sa, Daniel E. Ho, Percy Liang ·

    Extracting memorized pieces of (copyrighted) books from open-weight language models

    arXiv:2505.12546v5 Announce Type: replace Abstract: Plaintiffs and defendants in copyright lawsuits over generative AI often make sweeping, opposing claims about the extent to which large language models (LLMs) memorize protected expression from books in their training data. We s…