Meta被曝AI训练「黑幕」!下载81.7TB盗版数据“喂养”模型,CEO竟称不知情?

360影视 2025-02-08 18:41 3

摘要:根据最新披露的信息,Meta 明知使用 LibGen 和 Z-Library 数据库可能会涉及盗版行为,还通过种子下载(torrenting)方式获取了至少 81.7 TB 的盗版数据,并刻意隐瞒这种行为。

整理 | 郑丽媛

出品 | CSDN(ID:CSDNnews)

作为全球知名的科技公司之一,Meta 在 AI 领域的进展一直备受关注。然而,近日一系列曝光的邮件和法庭文件将 Meta 推到了风口浪尖:

根据最新披露的信息,Meta 明知使用 LibGen 和 Z-Library 数据库可能会涉及盗版行为,还通过种子下载(torrenting)方式获取了至少 81.7 TB 的盗版数据,并刻意隐瞒这种行为。

81.7TB,盗版数据规模惊人

据悉,这场法律纠纷始于 2023 年一群书籍作者对 Meta 的起诉,他们指控 Meta 非法使用从 LibGen 和 Z-Library 等网站获取的数据训练其 AI 模型。简要介绍一下 LibGen 和 Z-Library:二者都是“影子图书馆”,即网站上大多都以侵犯版权的方式向人们提供学术文献内容和小说等。

上个月,Meta 就已承认从 LibGen 下载了一个大型数据集,该数据集包含数千万本盗版书籍。但关于下载的细节一直模糊不清,直到昨天,Meta 未经编辑的邮件首次被公开。

最新证据显示,Meta 通过影子图书馆下载了至少 81.7 TB 的数据:“这些数据来自多个影子图书馆,其中包括至少 35.7 TB 的数据来自 Z-Library 和 LibGen”。此外,Meta 之前“还从 LibGen 下载了 80.6 TB 的数据”。

对此,书籍作者们在法庭文件中指控:“Meta 非法下载的规模令人震惊。”他们补充道,此前曾有比 Meta 侵权规模小得多的盗版行为也曾导致刑事调查——显然,Meta 这些数据的来源是否违反版权法,成为了争议的核心。

面对这场风波,Meta 始终坚持其 AI 训练活动属于“合理使用”(Fair Use)。这一法律条款允许在特定条件下对版权材料进行有限使用,通常适用于学术研究或技术开发等领域。然而随着更多证据的曝光,Meta 的辩护似乎面临越来越大的挑战。

根据近日曝光的一系列内部邮件,Meta 似乎早就意识到了其行为可能涉及违法。

2023 年 4 月,Meta 研究工程师 Nikolay Bashlykov 在一封内部邮件中表达了对使用公司笔记本电脑下载盗版书籍的不安,还在消息中加了一个哭笑的表情符号缓解气氛:“从公司笔记本电脑上进行种子下载感觉不太对。”

到了 2023 年 9 月,Bashlykov 再次通过邮件向公司法律团队咨询,强调下载种子文件可能涉及“传播”(seeding)盗版内容,这意味着 Meta 可能在无意中进行了非法传播——也就是说,Meta 明知其行为可能存在法律风险,却依然选择继续。

除了涉嫌非法使用盗版书籍,Meta 还被指控采取措施掩盖其下载和传播行为。

据称,Meta 为避免被追踪,特意避免使用 Facebook 服务器以防被追踪,并修改了设置以减少种子文件的传播。Meta 研究员 Frank Zhang 在内部邮件中提到,公司采取了“隐形模式”以防止被发现,而高管 Michael Clark 也在证词中承认,确实对种子传播进行了设置修改,旨在减少潜在的法律风险。

更令人震惊的是,未经编辑的邮件还显示,使用 LibGen 数据的决定是在“上报给 MZ(马克・扎克伯格)”之后做出的,即扎克伯格在决策过程中起到了关键作用——但此前,扎克伯格曾在公开场合表示对这一事件不知情。

很显然,以上这些行为与 Meta 之前的说法相矛盾,很大程度上表明它在有意规避版权法。

随着更多证据的曝光,此事件进一步发酵,Meta 的法律风险正在逐步加剧:不仅仅是民事诉讼,还有潜在的刑事责任。

书籍作者们指出,Meta 的侵权行为远超一般数据盗版,且在没有明确授权的情况下,大规模下载盗版书籍并用于商业 AI 训练,这一行为无疑违反了版权法。同时,他们还要求对参与决策的 Meta 员工进行进一步的证词询问。对此,Meta 则坚持认为指控被夸大了,辩称没有证据表明任何版权书籍由于其种子下载而重新分发给第三方。

总体而言,Meta 此次所遭遇的诉讼不仅对其自身构成了严重威胁,也在整个 AI 行业引发了广泛关注。AI 模型的训练需要大量数据,而数据的来源和合规性一直是行业内的敏感话题——如果法院最终认定 Meta 的行为违法,这将对整个 AI 行业产生重要的示范效应。

未来,AI 公司如何合法合规地获取数据,如何处理版权问题,将成为行业面临的重要课题。尤其是对于那些依赖海量公开数据训练 AI 模型的公司来说,如何平衡创新与版权合规,将是一个亟待解决的问题。

参考链接:

来源:CSDN

相关推荐