English(EN) Databricks can't seem to shake authors' copyright claim that could result in 'extraordinary' damages

Databricks 因作者起诉其 LLM 训练数据而面临“巨额”版权赔偿

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-29 18:05

美国法官已允许针对 Databricks 的集体诉讼继续进行，该诉讼指控其 DBRX 大型语言模型使用了盗版的受版权保护的书籍进行训练。作者声称 Databricks 收购了 MosaicLM，而 MosaicLM 使用了包含约 196,000 种图书（包括他们的作品）的 RedPajama 数据集。Databricks 辩称作者无法证明 DBRX 是使用该特定数据训练的，但法官要求提供更多信息以确定是否发生了版权侵权。 AI

影响版权侵权案件中可能产生的巨额赔偿，可能会影响 LLM 训练数据的获取策略。

排序理由关于 LLM 训练数据版权侵权的集体诉讼正在进行中。

在 The Register — AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

The Register — AI TIER_1 English(EN) · O'Ryan Johnson · 2026-04-29 18:05

Databricks 似乎无法摆脱作者的版权主张，该主张可能导致“巨额”赔偿

<h4>Authors say it acquired an LLM that was trained on their copyrighted data, and judge keeps asking for more info</h4> <p>Databricks cannot shake a class action lawsuit targeting its LLM, which several book authors contend was created with a database that contained pirated vers…

报道来源 [1]

Databricks 似乎无法摆脱作者的版权主张，该主张可能导致“巨额”赔偿

相关实体

相关话题