生成式人工智能训练数据集的著作权风险与规制路径

360影视 动漫周边 2025-09-11 11:40 1

摘要:生成式人工智能是基于深度学习等技术预测和生成新内容的人工智能分支,其发展需要算力、算法、数据等关键要素同时推动。从技术逻辑上看,预训练和优化训练中输入的训练数据的数量、质量和类型直接影响生成式人工智能大模型的性能。进行生成式人工智能大模型训练输入的数据应当包含

作者|史泽宇

正文共3394个字,预计阅读需10分钟▼

生成式人工智能是基于深度学习等技术预测和生成新内容的人工智能分支,其发展需要算力、算法、数据等关键要素同时推动。从技术逻辑上看,预训练和优化训练中输入的训练数据的数量、质量和类型直接影响生成式人工智能大模型的性能。进行生成式人工智能大模型训练输入的数据应当包含大规模、高质量且丰富的作品,以此来满足技术的发展需要。然而,生成式人工智能使用的训练数据往往包括受著作权保护的作品,这可能存在侵犯著作权风险,由此引发社会公众对人工智能大模型训练数据获取、储存、分析、利用合法性的担忧。

生成式人工智能训练数据集著作权风险的类型化分析

复制权侵权风险。生成式人工智能服务提供者在构建训练数据集时,需要将文本、图片、视频和音频等未数字化的内容转化为计算机可读的数据格式并生成副本,或者直接访问和获取已数字化的内容。以上行为必然涉及对受著作权法保护作品的复制和使用,因此,未经著作权人许可使用既有作品并将其纳入生成式人工智能训练数据集,可能侵犯著作权人的复制权。

演绎权侵权风险。演绎权是对原始作品进行再创作形成新作品的权利,分为汇编权、翻译权、改编权等权利。在生成式人工智能数据训练阶段,原著作权人被侵犯的主要权利是汇编权和改编权。第一,在训练数据集开发过程中可能对全部或部分原数据进行整合编排,形成新的满足训练人工智能模型需求的训练数据集。由于汇编权由著作权人享有,因此在未经著作权人许可或转让的情况下,人工智能训练数据集的开发存在侵犯原著作权人汇编权的风险。第二,如果未经原著作权人许可,将受著作权保护的作品从一种语言翻译成另一种语言,形成新的内容用于训练人工智能模型,那么这一训练数据集的开发过程则存在侵犯原著作权人翻译权的风险。然而,将人类语言进行数字化处理转换为机器语言并不符合著作权法规定的“从一种语言文字转换成另一种语言文字”的翻译行为,而仍然是受著作权人控制的复制行为。第三,就训练数据集的改编权侵权而言,主要发生在生成式人工智能的应用阶段。当用户发出特定指示时,人工智能模型会利用特定算法对原始作品进行模仿以实现用户的要求,因此,这可能在不改变原作品思想内涵的情况下形成具有新的表现形式的作品,侵犯原作品的改编权。

生成式人工智能训练数据集的著作权法规制面临的问题

生成式人工智能的技术特性与“作者中心主义”理念存在冲突。传统的著作权法规范遵循以作者为中心的价值理念,著作权法在规则设置上注重对作者权利的保护,体现浓厚的“权利主义”色彩。当前,生成式人工智能技术更新迭代引发大规模使用既有作品的需求。如果著作权法一味地向保护著作权人利益倾斜,则可能导致著作权人过度控制训练数据的获取、存储和使用,致使训练数据集的形成路径受阻,人工智能大模型将无法高效获得作为数据训练基础的原始作品。在人工智能成为重要知识产品来源的趋势下,对作者权利的保护应当以能够为作者提供必要激励为标准,从而使作者的权利范围与其在增加人类知识存量中的劳动贡献相匹配。同时,实现保护著作权人利益与促进技术发展的平衡。

生成式人工智能的技术特性与传统著作权侵权豁免事由的冲突。首先,“法定许可”规则的适用困境。《中华人民共和国著作权法》第二十六条规定,除依法不经许可的情形,使用他人作品应当同著作权人订立许可使用合同。然而,在人工智能时代,“法定许可”规则无法有效发挥维护各主体权益的功能。其一,在现有的“法定许可”规则下,生成式人工智能的开发者为获得海量的训练数据,需要向著作权人支付高昂的对价且投入磋商成本。对于开发者而言,若需要投入的成本可能高于预期利润,开发者出于对成本和收益的考量,将不愿对人工智能产业投入资金,研发积极性大幅降低,不利于具有创新潜力企业的发展。其二,人工智能产业市场环境多变,许可使用费应当与人工智能模型的经济收益、市场需求等因素相匹配,而通过签订许可使用合同的“法定许可”模式存在僵化问题,即许可使用费难以根据市场环境变化适时进行动态调整。因此,以工业社会为模板构建的“许可使用”规则难以应对人工智能时代的训练数据集开发问题。其次,“合理使用”标准的适用困境。在传统的“合理使用”标准下,对生成式人工智能训练数据集的开发需要符合著作权法第二十四条的规定,通过“三步检验法”的检验路径方可满足“合理使用”要求。然而,生成式人工智能训练数据集却难以达到这一标准。

第一,开发训练数据集的目的是训练生成式人工智能大模型,而不是出于对原始作品进行教学、科研、媒体刊登或播放等目的,因此,明显不符合著作权法第二十四条中除第(一)项“个人使用”和第(二)项“适当引用”之外的情形。第二,判断人工智能模型在数据训练阶段对原始作品的使用是否满足第(一)项、第(二)项的要求,需要对这两项规定进行解释。一是第(一)项规定,为个人学习、研究或者欣赏而使用已经发表的作品属于合理使用。这里规定的“个人”是指“自然人”,但是生成式人工智能的开发者多为大型技术团队且以盈利为目的,并不满足主体要求且并非出于“学习、研究和欣赏”等非商业目的,因此不符合第(一)项规定的要求。二是在第(二)项规定中,构成“适当引用”需要符合“为介绍、评论某一作品”或“说明某一问题”的目的,同时需要满足“适当引用”的限度条件。在数据训练阶段会通过对获取到的原始数据进行分析、整合、加工,形成训练数据集并纳入训练数据库,从而实现对人工智能模型的训练,因此,也不符合“适当引用”的目的和限度条件。第三,著作权法第二十四条中的兜底条款仅限于法律、行政法规规定的其他情形,生成式人工智能训练数据集仅能通过法律、行政法规的规定进入合理使用的范畴。但是,目前尚未有法律法规明确规定将人工智能数据训练中的相关行为纳入合理使用范畴。综合以上分析,生成式人工智能训练数据集的开发难以适用于著作权法第二十四条规定的侵权豁免事由,传统的“合理使用”标准面对新兴技术发展带来的挑战显得捉襟见肘。

生成式人工智能训练数据集的规制路径重塑

为改变训练数据集著作权侵权现象频发问题,需要在公平合理使用数据的价值指引下,构建与价值理念配套的具体制度,在实现著作权法规范激励创作功能的同时,将使用作品的部分自由赋予人工智能大模型的开发者。

构建开放的合理使用制度。为避免训练数据集开发过程中使用原始作品造成著作权侵权的风险过大而影响开发者改良人工智能模型的积极性,可以将数据训练行为纳入合理使用的情形,从而豁免人工智能数据训练阶段开发者的著作权侵权责任。我国著作权法规定的合理使用包括一项兜底性规定,即“法律、行政法规规定的其他情形”,这一规定为扩展合理使用条款的范围提供了立法接入点。为提升著作权法规范对技术发展的自我调适能力,我国可以通过修改《中华人民共和国著作权法实施条例》或在专门的人工智能立法中对合理使用的情形进行扩张,将生成式人工智能训练数据集开发纳入合理使用的适用范围,以回应数字时代生成式人工智能技术发展的要求。

建立著作权人“选择退出”机制。除对符合要求的使用作品的行为进行一定程度的豁免外,还应当尊重作者的选择权,允许著作权人选择其作品退出被用于人工智能的数据训练,在开发者和著作权人之间实现利益平衡。当著作权人获知其受著作权法保护的作品被用于人工智能大模型训练后,若同意该使用行为,可以向著作权主管机构提出申请,获取其作品被使用的经济补偿。但是,若著作权人拒绝其作品被用于数据训练,则可以向有关主管部门申请,要求作品使用方暂停使用其作品。但是,为了实现开发者与著作权人的利益平衡,应当对著作权人的拒绝权进行一定的限制,著作权主管部门应当考虑原始作品的社会价值和可能的市场影响,综合认定能否准许著作权人行使拒绝权。

数字经济时代,大量的数据为生成式人工智能提供了前所未有的训练资源和信息基础,也衍生出了著作权侵权风险。为了防范新兴技术发展带来的风险,需要将著作权法对于训练数据集的规制理念进阶为促进训练数据集的公平有效利用。科技发展在对人类文明的多维度变革带来深刻影响的同时,对当前法律框架的时代适应性提出了挑战。我国著作权法应当以包容的姿态积极能动地回应新兴技术的特殊性,关注人工智能时代科学技术发展的迫切需要,提升著作权法自身在科技创新大背景下的活力与适应性。

来源:民主与法制报

相关推荐