摘要:在美国版权局局长突遭解职前夕,版权局这份备受期待的生成式AI训练与版权合理使用的研究报告以"预印本"形式悄然面世。本文简要解析该报告特殊发布时间背后的政治博弈、潜在影响及法律意义。
目次
1. 复制始于训练初期并持续影响模型权重
2. 训练可能具有转换性,但实际判断取决于模型应用方式
3. 训练并非“非表达性”,亦非人类学习
4. 整体复制通常不利于合理使用认定,但具体使用场景可能改变认定结果
5. 市场稀释可能是最重要且新型的潜在市场损害
在美国版权局局长突遭解职前夕,版权局这份备受期待的生成式AI训练与版权合理使用的研究报告以"预印本"形式悄然面世。本文简要解析该报告特殊发布时间背后的政治博弈、潜在影响及法律意义。
美国版权局选择上周五(5月9日)傍晚美国政府机构惯用的"舆情静默期",低调发布了其AI研究项目的第三部分“预印本”( pre-publication) 报告(Copyright and Artificial Intelligence, Part 3: Generative AI Training pre-publication version,https://www.copyright.gov/ai/Copyright-and-Artificial-Intelligence-Part-3-Generative-AI-Training-Report-Pre-Publication-Version.pdf )。这份长达108页的文件系统阐释了该机构对生成式AI模型训练中使用版权作品的法律立场,重点分析了合理使用原则的适用边界。
需要明确的是,版权局报告的“预印本”并不是惯例。而这份报告的发布时间也绝非偶然。
报告的发布夹在两次非同寻常的解职之间。就在报告发布到版权局网站的前一天,特朗普政府突然解职了长期担任国会图书馆馆长的Carla Hayden博士,她曾任命Shira Perlmutter为版权局长。而在报告上线不到24小时后的周六,Perlmutter也被政府解职。虽然有人猜测是报告本身引发了Perlmutter的解职,但更可能的是,版权局急于在领导层变动可能导致结论延迟或脱轨之前发布报告。
这份报告是否能作为“官方”政策存续尚不确定。甚至在读者阅读这篇报告时,它可能已经被撤回。但其超过五万字的内容仍然具有生命力,与目前在美国联邦法院审理的40多个生成式AI版权案件并行。法官、法律助理和政策制定者将会阅读这些内容。在几个备受争议的问题上,报告明确站在创作者一边,而不是支持这些工具的技术平台一边,为这些平台站台的是愈发激进的行政部门。目前,一些平台正在游说特朗普政府宣布使用受版权保护的作品进行AI训练是完全合法的。
在美国,版权局长并非政治任命职位,也不由总统直接指派,版权局隶属于国会图书馆,而非行政部门,这引发了关于局长解职合法性的严重质疑。毋庸置疑的是,Shira Perlmutter以其卓越的表现服务于版权局,引领其进入现代化时代以及AI的未知领域。她的被解职凸显了发布这份报告的重要性,这份报告可能如何定义她的遗产。
这份报告虽然篇幅较长,但结合其特殊的发布背景,值得法律从业者和政策研究者深入研读。下文简要总结该报告的五个关键要点:
1. 复制始于训练初期并持续影响模型权重
美国版权局在报告中明确指出,使用受版权作品构建训练数据集的行为"必然涉及复制权"。根据版权法原则,此类行为构成"可反驳的推定侵权",除非能援引合理使用等法定抗辩事由。在实际操作中,开发者通常会对作品进行多阶段复制:包括初始下载的完整复制、预处理时的格式转换、系统间的数据传输,以及最终整合进训练数据集。值得注意的是,当训练完成的模型输出与受保护作品构成实质性相似时,可能同时侵犯复制权和演绎权等多项专有版权。
报告最具突破性的观点在于对模型内部机制的认定。核心争议在于:模型权重(即通过学习形成的数值矩阵)是否构成对原作的复制?版权局的结论是,在特定情形下确实成立。当模型能够未经提示就输出与训练数据几乎相同的内容时,这些表达形式"必然以某种方式存在于权重中"。据此,报告认为"有充分理由认定,复制此类权重将构成对被记忆样本复制权的侵害"。
这一认定影响深远。如果可受保护的表达被编码进权重,那么"即便是非直接参与训练的第三方复制权重,同样可能构成初步侵权"。这意味着模型的传播、调优或部署不仅会使原始开发者,还可能使下游用户面临复制权与改编权的侵权风险。虽然最终责任认定仍需考察模型是否保留了原作的实质性独创表达,但版权局这一论断为追责范围扩展至训练后环节提供了法理依据。
核心观点引述:"模型权重是否涉及复制权或演绎权,本质上取决于其是否保留了原作中具有独创性的实质性表达......在训练数据准备和模型训练阶段使用作品确已涉及复制权,但只有当权重与原创表达存在实质性相似时,其复制行为方才构成侵权"(报告原文第30页)
2. 训练可能具有转换性,但实际判断取决于模型应用方式
当模型的复制行为构成表面侵权时,核心问题在于合理使用等抗辩理由是否适用。版权局关于合理使用首个要素“使用的目的和性质”的分析与美国最高法院在Warhol v. Goldsmith案件中的推理高度一致:使用是否具有转换性不仅取决于训练过程,还取决于最终如何使用所得模型。
就应用场景而言,研究型或封闭式系统处于判定标准的一端,此类模型所执行的功能与训练数据的表达目的不存在实质性关联。例如,基于书籍训练以支持内容审核工具——用于检测和过滤有害或不当内容的系统——在版权局看来具有高度转换性。而在另一端,即那些模型输出与数据集中的受版权保护作品实质上相似的使用案例。对图像模型进行微调以生成与动画系列截图相似的角色艺术并不是转换性的,它是对原作品的替代。
大多数使用情况介于两者之间。一个基于声音录音训练的模型用于生成新音乐,可能不会直接复制任何一首曲目,但仍服务于相同的受众和目的:娱乐。版权局认为,这仅具有有限转换性。但若同一模型被用于修复历史音频档案,改变后的使用目的将显著增强其合理使用主张。
版权局还强调了技术防护措施的作用。开发人员实施安全措施以限制模型复制受版权保护材料的能力,可能会降低市场替代的风险,从而更有可能被认定为合理使用。然而,根据Warhol案,若这些保护措施被解除或失效,则需重新评估合理使用认定。
核心观点引述:虽然在开发过程中识别具体的复制行为很重要,但单纯的数据集汇编或训练行为很少构成最终使用目的。合理使用必须置于整体应用场景中评估(报告原文第36-37页)
3. 训练并非“非表达性”,亦非人类学习
美国版权局在合理使用第一要素分析中,直接回应了两种常见抗辩理由:AI训练具有"非表达性",以及该训练属于模仿人类学习过程。鉴于这些论点在诉讼和评论中频繁出现,值得单独予以批驳。
首先,报告明确否定了"训练仅是统计行为"的观点。报告阐明,语言模型并非仅处理词频统计,而是学习"[词语]在句子、段落及文档层面的选择与排列方式"——这一过程被界定为"语言表达的本质"。同理,基于美学作品训练的视觉模型会吸收特定的创作模式,其目的正是为了生成具有表达性的输出结果。当模型的设计目标包含对表达性内容的复制或重组时,其训练过程就不能被简单地归类为非表达性行为。
其次,版权局驳斥了将AI训练类比人类学习的观点。合理使用原则并不自动适用于所有以学习为名的行为。正如报告所述,学生"不能以促进个人教育为由,依据合理使用原则复制图书馆全部藏书"。人类对信息的吸收既不完美又具有个体差异性;而AI系统则截然不同,它们摄取精确的数字副本,并以"超人的速度和规模"处理它们——版权局认为这一差异对合理使用分析具有决定性意义。
核心观点引述:"人类仅能保留他们对所见作品的不完整印象……而生成式AI训练需要创建完美的副本,并具备近乎即时分析作品的能力。"(报告原文第48页)
4. 整体复制通常不利于合理使用认定,但具体使用场景可能改变认定结果
在合理使用第三要素分析中,关键考量在于使用受版权保护作品的数量及比例是否与使用目的相符。这对AI开发者构成特殊挑战——因其模型通常需要完整摄入数百万件作品。整体性复制行为在合理使用认定中通常构成负面因素。
但正如版权局所强调的,具体使用情境至关重要。司法判例曾允许为实现转换性功能(如搜索引擎或剽窃检测系统)而进行的完整作品复制,因这类工具需要提供对原作品的分析信息。版权局指出,此类情形中,完整作品复制属于"实现功能所必需的技术前提"。
相比之下,生成式AI系统并不局限于提供训练数据的相关信息。正如版权局明确指出的:"与谷歌图书检索或图片缩略图案例不同,在此类场景下对受版权保护作品进行完整复制的正当性依据明显不足。"
然而,版权局同时认识到当代AI研发的技术特性。其援引的实证研究表明:"要达到当前一代模型的性能标准,可能必须使用包含海量完整作品在内的互联网级预训练数据集。"因此,尽管完整复制行为"在合理使用认定中通常构成负面因素",但若开发者能够证明:1)该复制行为是实现转换性使用目标所必需的技术前提;2)最终模型内置了有效的内容过滤机制以防止输出受版权保护的独创性表达,则可在相当程度上弱化这一不利认定。
核心观点引述:“当训练过的模型对输出训练数据中受保护内容设有有效限制措施时,合理使用第三要素对生成式AI训练的不利影响将相应减轻。”(报告原文第59页)
5. 市场稀释可能是最重要且新型的潜在市场损害
或许该报告最具影响力、也最具争议性的结论在于其对合理使用第四要素(使用行为对版权作品潜在市场的影响)的扩展性解读。版权局明确指出生成式AI训练可能引发的三类市场损害:
许可机会损失:针对本可通过授权许可将其作品纳入训练数据集而获得报酬的权利人;市场替代性损害:当模型生成的输出内容与训练数据集中的受版权保护作品构成实质性相似时;市场稀释:即使AI生成内容不构成直接侵权,但其通过海量产出或风格模仿导致原创训练材料的市场价值被削弱。以上这第三类理论,即市场稀释效应极可能引发最激烈的争议。版权局警告称:"AI系统生成内容的速度和规模,对与其训练数据同类型作品的市场价值构成严重的稀释风险。"即便输出内容与任何特定作品均不构成实质性相似,"通过训练数据使用实现的风格模仿,仍可能影响原创作者的市场收益。"
然而,该理论尚未经受司法检验。正如版权局所承认,这属于"未经探索的领域",迄今尚无任何法院将其作为否定合理使用的依据。
法院会否采纳这一观点尚待观察。需特别指出的是,版权局并不具备立法权,其提供的指导意见仅可依据"斯基德莫标准"(Skidmore deference)[1]被法院参考,而该原则的适用完全取决于版权局论证的说服力。尽管版权局依托深厚的专业知识作出判断,但法院很可能要求其提供超越政策性考量的具体法律依据或个案实证——尤其是在需要将合理使用原则拓展至新领域时。在报告提出的所有主张中,这一论点可能最容易面临修正甚至否决,最终结果将取决于法院对版权局报告的司法接纳程度。
核心观点引述:"AI系统生成内容的速度和规模,可能严重稀释与其训练数据同类型作品的市场价值。"(报告原文第65页)
小结与展望
美国版权局并未对目前法院待审的40余起AI版权案件做出预判,其报告反复强调合理使用的认定取决于个案具体事实。但整体而言,该分析报告明显倾向于保护版权人权益,最显著的体现是其支持了一项尚未被任何法院采纳的新型市场稀释理论。这一立场恰逢版权局领导层经历政治性重组之际。
除合理使用外,这份108页的报告还探讨了许可机制建设、集体协商提案以及更广泛的政策改革。对于抵制未经授权AI训练的内容创作者与权利方而言,报告提供了一份详尽且立场鲜明的反驳,以应对笼统的合理使用抗辩理由。
然而,法院是否会采纳版权局的观点,或者版权局新领导层是否将延续该报告的既定政策立场,仍是一个悬而未决的问题。
注释(上下滑动阅览)
【1】 "斯基德莫标准(Skidmore deference)"指美国法院在审查行政机关解释时采用的弹性标准:根据行政机关的专业性、解释的合理性及其论证说服力来决定给予的尊重程度。该标准要求法院综合考量(1)行政机关的专业能力;(2)解释的连贯性;(3)与立法意图的契合度;(4)论证的充分性等因素作出判断。在AI版权争议中,法院将据此评估版权局对合理使用原则解释的合法性。
作者:郑友德
编辑:Sharon
来源:知产前沿