利用盗版图书训练AI，规模惊人！何解？

摘要：近期，美国知名杂志《大西洋月刊》发表了一篇题为《AI使用盗版书籍训练的惊人规模》的文章，报道了Meta公司在训练其旗舰AI模型Llama 3时，使用了盗版书籍库Library Genesis（LibGen）的内容。法庭文件披露，Meta的员工在内部讨论中表示，

近期，美国知名杂志《大西洋月刊》发表了一篇题为《AI使用盗版书籍训练的惊人规模》的文章，报道了Meta公司在训练其旗舰AI模型Llama 3时，使用了盗版书籍库Library Genesis（LibGen）的内容。法庭文件披露，Meta的员工在内部讨论中表示，为了快速获取高质量的训练数据，Meta公司在训练其大型语言模型Llama 3的过程中，直接使用了盗版图书网站Library Genesis（简称LibGen）上的书籍数据，并且这一决定得到了CEO马克·扎克伯格的批准。此次披露将AI科技公司与出版社的矛盾冲突推上了新的高度，引发了全球出版界的强烈关注。

英国出版商协会（Publishers Association）第一时间发表声明谴责Meta的行为——“对创作者的权益造成了系统性伤害”。与此同时，其他出版机构、作者群体和版权组织也纷纷发声，对AI模型训练中潜在的版权侵权问题表示担忧。

但实际情况是，在利用盗版图书训练AI的问题上，此次披露的情况并非孤例。在过去一年中，出版商和创作者因大模型训练“窃取”未经授权的内容与AI公司之间的冲突被频频爆出。早在Meta事件之前，OpenAI等科技公司就被指控，其在训练其语言模型中使用的Books3数据集含有大量未授权图书内容。而2023年底，《纽约时报》更是将OpenAI和微软一同告上法庭，指控它们未经授权使用其付费内容进行AI训练，引发了美国首例大型媒体机构对AI公司的版权诉讼。关于科技公司使用未经授权的语料训练AI大模型的问题，行业一直争议不断，这也是整个行业目前非常关注的伦理问题，因为此前的一些控诉证据链不足或没有直接证据，此问题一直在争议领域被探讨。但如今Meta事件与OpenAI的案例已经有充足的法律文件和公开数据证明侵权属实。出版行业数十年来建立的版权体系，在AI训练的浪潮下正在被悄然侵蚀，现在随着盗版书网站这枚隐藏已久的“地雷”的引爆，对科技公司的监管应该如何入手，创作者们又该如何应对呢？

影子图书馆：AI语料库的知识供体“影子图书馆”（Shadow Libraries）这一概念最早由学者劳伦斯·莱西格（Lawrence Lessig）等人提出，指那些游走于法律边缘，提供未经授权的学术文献和电子图书的数字平台，“影子”一词恰如其分地反映了这些平台的特性：这是一个去中心化、匿名运营的全球盗版图书分发体系，表面上以“开放获取”为名，实则绕开传统版权结构运行，广泛渗透在教育、科研、阅读和AI语料生态之中。虽然这一概念最早源于学术出版的“抵抗性获取”，但在AI语言大模型训练的背景下，其作用和影响已远超最初的知识共享目的。目前全球最大的几个影子图书馆平台包括Library Genesis（LibGen）、Z-Library、Sci-Hub和Anna’s Archive。在AI技术加速演进、语料需求激增的背景下，他们以其庞大的体量、爬取的便捷性，已然悄然成为生成式AI语料训练的“知识黑箱供体”。此次Meta案涉及的数字平台LibGen可谓是最臭名昭著的盗版图书网站。LibGen诞生于2008年，最初由几个俄罗斯黑客运维，专注于为全球学者提供学术出版的内容。由于LibGen站点结构简单、无需注册、支持批量下载，一度成为“信息贫困”地区学者的重要资源来源。后来网站极速扩展至涵盖了几乎所有学科的学术著作、教科书、小说、漫画和杂志，形成了一个庞大的侵权内容数据库。据统计，LibGen非法收录了约750万本书籍和8000多万篇学术文章，一直以来都是出版界侵权重灾区。平台采用分布式架构和镜像站点等技术手段，也明显是为了逃避版权执法有意为之。LibGen与其他影子图书馆如Sci-Hub也保持数据共享关系，形成了一个互相支持的侵权生态。Sci-Hub作为侵犯学术版权的另一个主要平台，于2011年由哈萨克斯坦程序员艾尔巴金创建，平台非法收录了近8500万篇学术论文的访问。2015年，学术出版商爱思唯尔对LibGen、Sci-Hub以及艾尔巴金本人提起诉讼。法院随即颁发了禁令，宣布关闭这些盗版书网站，并命令Sci-Hub向爱思唯尔支付1500万美元的赔偿金。然而事情很快不了了之，罚款没有缴纳，网站也没有关停。类似的故事在2023年再度上演，当时包括麦克米伦教育和麦克劳希尔在内的一众教育和专业出版商联合起诉了LibGen。这一次法院要求LibGen支付3000万美元的赔偿金，但这笔罚款也并未缴纳。直至今日，当局在很大程度上依然无法限制这些平台在网上的内容传播。这也使得高速演进的AI入局后，出版商和盗版书平台的斗争变得更加复杂。除了学术与教育出版社，大众出版商也难逃盗版书网站的大范围侵占。Z-Library可能是普通读者更为熟知的一个线上图书网站。起初是Library Genesis的一个分支，后来发展成了独立平台。它自称以用户体验和图书完整性闻名，其标语是“世界上最好的电子图书馆”。Z-Library支持多语言界面、个性化推荐和高精度搜索功能，在疫情期间访问量飙升，也成为不少学生、研究者甚至图书编辑的“资源库”。2022年11月，美国司法部在FBI协助下对Z-Library域名实施查封，并逮捕了两名涉事的运营人员。然而，短短数月后，该平台通过匿名服务器和Telegram频道迅速复活，并提供数百个镜像站点。由于Z-Library还设置了每日下载限额，用户可通过所谓捐赠付费获得更多访问权限，但这种做法其实本质上就是在通过侵权内容牟利。

出版业如何“被动卷入”这场漩涡？尽管科技公司和AI研究机构往往将“知识共享”“数据驱动”作为发展语言模型的正当理由，但这场迅猛发展的人工智能浪潮，实则正在悄然重塑出版业的利益格局。对于出版商来说，过去几十年苦心构建的商业模式和版权体系，正面临“免费提取—不可追溯—难以索赔”的技术困境。在不知情、无法监测的前提下，其内容便已被纳入生成式AI的训练内容，作者和出版机构不仅没有获得任何补偿，甚至很难证明内容已被使用。这种信息不对称和责任模糊的局面，使得出版方在AI大模型时代中几乎处于完全被动的境地。在AI高速普及的当下，读者对内容的获取习惯也在悄然发生着改变。当人们意识到通过AI能够快速地生成读书笔记、学习材料甚至伪原创的“创新”内容时，内容的原始来源反而变得边缘化，譬如一些社交媒体的营销文案，甚至不需要看到源内容就可以迅速通过AI生成。这不仅削弱了内容创作者的核心价值，也让出版生态的可持续性面临前所未有的挑战。

如何共赢？近年来，版权内容使用问题已经成为人工智能领域无法避开的议题，因此部分AI公司其实已经开始尝试以授权合作的方式合法获取模型训练的内容。2024年5月，英国《金融时报》（Financial Times）与OpenAI达成合作，授权其使用FT数据库内容训练模型。作为交换，OpenAI将在其产品中展示FT文章的摘要与链接，从而帮助其进行倒流。同年，德国媒体集团Axel Springer也与OpenAI签署内容授权协议，旗下包括《政治新闻网》和《德国图片报》的新闻内容可被ChatGPT等产品使用。新闻集团（News Corp）与OpenAI的合作则将商业合作推向了一个新高度。双方签署了一份为期五年、总额高达2.5亿美元的授权协议，涵盖了《华尔街日报》《纽约邮报》等旗舰媒体的内容授权。图书出版方面也有去年也有类似的商业探索。2024年，出版巨头哈珀柯林斯（HarperCollins）与微软达成协议，允许其使用部分非虚构类旧版图书内容训练AI，每部作品给予一次性授权费用，并告知作者，给予其选择参与与否的权利。这一合作模式虽然还处于早期“实验”阶段，但已不难看出，出版行业数字共建伦理已经在积极推进中了。学术出版则是更早意识到需要找到与AI语言模型的训练共赢发展的领域，威立出版社（Wiley）此前与一家科技公司签署价值2,300万美元的协议，授权对其部分专业与学术书籍内容进行AI训练。该协议虽然未公开科技公司的名字，但其金额之高足以体现内容资源的价值。在全球AI技术发展与内容提供商之间此起彼伏的激烈冲突下，国内出版行业也在不断探索新技术和内容生成在伦理层面的平衡，并寻求共赢。根据新闻报道，2024年6月，在中图举办的“出版与技术创新”大会上，施普林格·自然集团提出将在中国启动AI生成式写书计划，并宣布将携手中科院何满潮团队及中图科信，计划通过AI驱动的内容协同出版，加速专业出版数字化转型。而在出版流程层面，也已经有不少出版社开始搭建自己的标准知识库，用以协助从编写到宣传的多个工作流程内容。出版行业本身对AI一直抱有开放共赢的姿态，在未来的数字化转型和发展中也注定无法与人工智能隔绝开来，所以如何探索出在尊重版权、保障作者和出版商权益的前提下的合作局面是未来数字化发展无法逃开的议题。“影子图书馆”也不仅仅是某个国家的特有现象，随着数字科技的不断发展，数字信息不仅给予了大众更方便的传播途径，也滋生出了数据安全的种种问题。如今作为AI黑箱供体的“影子图书馆”已经不限于某些特定的大众熟知的平台，也可能它正在以其他的方式绕开版权系统在互联网中传播。想要解决这些问题，也绝非一日之功。一审：刘佳艺二审：赵冰三审：黄璜出版人杂志2025年度开始征订啦！