法庭文件显示Meta秘密利用臭名昭著盗版数据库训练AI

摘要：法院违背了 Meta 的意愿，公布了未经删节的信息，指控 Meta 使用 Library Genesis (LibGen)（一个臭名昭著的盗版书籍影子图书馆，源自俄罗斯）来帮助训练其生成式人工智能语言模型。

鞭牛士报道，1月10日消息，据连线杂志报道，Meta 刚刚在一场持续的法律战中输掉了一场大败，一群作家起诉 Meta 侵犯了其人工智能模型训练方式的版权。

法院违背了 Meta 的意愿，公布了未经删节的信息，指控 Meta 使用 Library Genesis (LibGen)（一个臭名昭著的盗版书籍影子图书馆，源自俄罗斯）来帮助训练其生成式人工智能语言模型。

Kadrey 等人诉 Meta Platforms一案是针对科技公司 AI 训练实践提起的最早的版权诉讼之一。该案的结果以及美国法院正在审理的数十起类似案件的结果将决定科技公司是否可以合法使用创意作品来训练 AI，并可能巩固 AI 领域最强大的参与者的地位或使其脱轨。

美国加利福尼亚州北区联邦地区法院法官文斯·查布里亚 (Vince Chhabria)周三命令Meta 和原告提交一批文件的完整版本，称 Meta 删减这些文件的方式荒谬可笑，并补充说，在大多数情况下，这些简报中没有任何内容应该被封存。

查布里亚裁定，Meta 推动删减这些材料并非为了保护其商业利益，而是为了避免负面宣传。这些文件最初于去年年底提交，至今仍未以未删减的形式公开。

在他的命令中，Chhabria 引用了文件中 Meta 员工的一句内部引言，他们推测，「如果有媒体报道说我们使用了我们知道是盗版的数据集，比如 LibGen，这可能会破坏我们在这些问题上与监管机构的谈判地位。」

Meta 拒绝置评。

2023 年 7 月，小说家理查德·卡德雷 (Richard Kadrey) 和克里斯托弗·戈尔登 (Christopher Golden) 以及喜剧演员莎拉·西尔弗曼 (Sarah Silverman) 首次对 Meta 提起集体诉讼，指控这家科技巨头未经许可使用他们的版权作品训练其语言模型。

Meta 辩称，使用公开可用的材料训练人工智能工具受到合理使用原则的保护，该原则认为在某些情况下未经许可使用版权作品是合法的，该公司辩称其中之一就是使用文本对语言进行统计建模并生成原创表达，该公司的律师在 2023 年 11 月的驳回作者诉讼的动议中写道。

在这起特定的诉讼中，Meta 还辩称原告的指控毫无根据。

在这些文件公开之前，Meta 曾在一份研究论文中披露，它已使用 Books3 的部分内容训练了其 Llama 大型语言模型，Books3 是一个从互联网上抓取的约 196,000 本书的数据集。

然而，它此前并未公开表示，它已直接从 LibGen 下载数据。

这些新近未删节的文件揭示了在调查过程中发现的 Meta 员工之间的交流，例如，一位 Meta 工程师告诉同事，他们犹豫是否要访问 LibGen 数据，因为从 [Meta 拥有的] 公司笔记本电脑上下载种子感觉不对。

他们还声称，关于使用 LibGen 数据的内部讨论已上报给 Meta 首席执行官马克·扎克伯格（在调查期间移交的备忘录中称为MZ），并且 Meta 的 AI 团队被批准使用盗版材料。

来源：鞭牛士Bianews

标签：训练 meta 数据库

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!